wuvin
Always take risks!
Toggle navigation
wuvin
主页
实验室的搬砖生活
机器学习
公开的学术内容
公开的其他内容
About Me
归档
标签
友情链接
ZYQN
ihopenot
enigma_aw
hzwer
杨宗翰
GAN+分层图+场景解析相关
2021-06-20 08:53:54
1465
0
0
wuvin
## LR-GAN: Layered recursive generative adversarial networks for image generation * 168 cite, github 开源, ICLR 2017 * ![title](https://leanote.com/api/file/getImage?fileId=60ceae46ab644149231b8266) * 比较早的尝试分background和foreground生成的文章。 * ![title](https://leanote.com/api/file/getImage?fileId=60ceaee8ab644147291b8b15) * 这个一层一层绘制上去的思路还不错。 * 但是根据BlockGAN说的,本文如果在背景加点噪音,会大幅影响后续每层生成。 ## INVESTIGATING OBJECT COMPOSITIONALITY IN GENERATIVE ADVERSARIAL NETWORKS * 12 cite, 无github,NN 2020 * ![title](https://leanote.com/api/file/getImage?fileId=60ceb87cab644149231c1de2) * 这篇文章采用每个物体自己预测一个 alpha channel 来当透明度,然后一层一层叠加起来得到最后的图片。 * 这篇文章似乎2018年就挂出来了,但缺少相对可靠的实验结果。 ## BlockGAN: Learning 3D Object-aware Scene Representations from Unlabelled Images * 26 cite, github 开源, NIPS 2020 * ![title](https://leanote.com/api/file/getImage?fileId=60cea469ab644147291aea24) * 同样是引入姿态信息的先验,只是先用3D卷积生成物体,然后可微旋转场景,比较早的想引入物体姿态信息的GAN。 ## RELATE: Physically Plausible Multi-Object Scene Synthesis Using Structured Latent Spaces * 7 citation, github 开源, NIPS 2020(为什么都是同一个会议,这篇把上面那个当对比的baseline) * ![title](https://leanote.com/api/file/getImage?fileId=60ce9291ab6441472919d803) * 每个物体由 $(Z,\theta)$ 决定,$T$ 模块为重新调整物体角度使得物体不相交。 通过限制每个网络的feature map(大小为 $(H,H)$)中只存在一块 $(H',H')$大小的块存在值来限制物体。然后使用 $\theta \in R^2$,来平移这块 feature。 * 这个 $T$ 实际上学到的是一个相对位置的信息 * ![title](https://leanote.com/api/file/getImage?fileId=60ce9eadab644149231a9350) * 这篇文章有趣的一点是,它尝试去学习物体的运动规律,然后用于多帧生成。实现方案是每个物体建立一个 MLP 用$V(t-1)$和position算 $V(t)$,$V(0)$ 由物体特征和位置过MLP得到。 * ![title](https://leanote.com/api/file/getImage?fileId=60cea173ab644147291abc92) * 这个图应该是作者精选过的,因为报告的FID是 556(碗) and 2253(车),baseline(视频取15帧然后shuffle)是 920 and 3370。 ## Decomposing 3D Scenes into Objects via Unsupervised Volume Segmentation * 2021年4月份挂到 arxiv。demo at https://stelzner.github.io/obsurf/ * 输入一张图片,输出这个图像的3D重建(NeRF)。数据集上还是需要同场景多个有标注多视角图。 * ![title](https://leanote.com/api/file/getImage?fileId=60ceba72ab644149231c3c08) * 网络结构,训练上就是每次输入一张图片,然后随机选一个已知的其他视角图片作为decode的视角。同时增加了一个loss来防止多个物体相交。在如何encode分离物体特征上,采用了来自 " Object-centric learning with slot attention" 的方法, 初始的时候每个物体随机一个初始向量,然后这些向量过多层 简化的共享权重的Transformer Decoder得到最终表征。 * ![title](https://leanote.com/api/file/getImage?fileId=60ceb999ab644149231c2f08) # Comments * 现在这些网络还局限于,有多少个物体对应有多少个子分支。 * So far, 分辨率普遍限制在64左右,Natural Image 也很少有人做,做视频的也不多。
上一篇:
20210620论文总结
下一篇:
GNeRF: GAN-based Neural Radiance Field without Posed Camera
0
赞
1465 人读过
新浪微博
微信
腾讯微博
QQ空间
人人网
提交评论
立即登录
, 发表评论.
没有帐号?
立即注册
0
条评论
More...
文档导航
没有帐号? 立即注册