wuvin
Always take risks!
Toggle navigation
wuvin
主页
实验室的搬砖生活
机器学习
公开的学术内容
公开的其他内容
About Me
归档
标签
友情链接
ZYQN
ihopenot
enigma_aw
hzwer
杨宗翰
20210620论文总结
2021-06-20 13:35:00
1453
0
0
wuvin
# Topic: 3D 视觉,场景生成 ### LR-GAN: Layered recursive generative adversarial networks for image generation * 168 cite, github 开源, ICLR 2017 * ![title](https://leanote.com/api/file/getImage?fileId=60ceae46ab644149231b8266) * 比较早的尝试分background和foreground生成的文章。 * ![title](https://leanote.com/api/file/getImage?fileId=60ceaee8ab644147291b8b15) * 这个一层一层绘制上去的思路还不错。 * 但是根据BlockGAN说的,本文如果在背景加点噪音,会大幅影响后续每层生成。 ### INVESTIGATING OBJECT COMPOSITIONALITY IN GENERATIVE ADVERSARIAL NETWORKS * 12 cite, 无github,NN 2020 * ![title](https://leanote.com/api/file/getImage?fileId=60ceb87cab644149231c1de2) * 这篇文章采用每个物体自己预测一个 alpha channel 来当透明度,然后一层一层叠加起来得到最后的图片。 * 这篇文章似乎2018年就挂出来了,但缺少相对可靠的实验结果。 ### BlockGAN: Learning 3D Object-aware Scene Representations from Unlabelled Images * 26 cite, github 开源, NIPS 2020 * ![title](https://leanote.com/api/file/getImage?fileId=60cea469ab644147291aea24) * 同样是引入姿态信息的先验,只是先用3D卷积生成物体,然后可微旋转场景,比较早的想引入物体姿态信息的GAN。 ### RELATE: Physically Plausible Multi-Object Scene Synthesis Using Structured Latent Spaces * 7 citation, github 开源, NIPS 2020(为什么都是同一个会议,这篇把上面那个当对比的baseline) * ![title](https://leanote.com/api/file/getImage?fileId=60ce9291ab6441472919d803) * 每个物体由 $(Z,\theta)$ 决定,$T$ 模块为重新调整物体角度使得物体不相交。 通过限制每个网络的feature map(大小为 $(H,H)$)中只存在一块 $(H',H')$大小的块存在值来限制物体。然后使用 $\theta \in R^2$,来平移这块 feature。 * 这个 $T$ 实际上学到的是一个相对位置的信息 * ![title](https://leanote.com/api/file/getImage?fileId=60ce9eadab644149231a9350) * 这篇文章有趣的一点是,它尝试去学习物体的运动规律,然后用于多帧生成。实现方案是每个物体建立一个 MLP 用$V(t-1)$和position算 $V(t)$,$V(0)$ 由物体特征和位置过MLP得到。 * ![title](https://leanote.com/api/file/getImage?fileId=60cea173ab644147291abc92) * 这个图应该是作者精选过的,因为报告的FID是 556(碗) and 2253(车),baseline(视频取15帧然后shuffle)是 920 and 3370。 ### Decomposing 3D Scenes into Objects via Unsupervised Volume Segmentation * 2021年4月份挂到 arxiv。demo at https://stelzner.github.io/obsurf/ * 输入一张图片,输出这个图像的3D重建(NeRF)。数据集上还是需要同场景多个有标注多视角图。 * ![title](https://leanote.com/api/file/getImage?fileId=60ceba72ab644149231c3c08) * 网络结构,训练上就是每次输入一张图片,然后随机选一个已知的其他视角图片作为decode的视角。同时增加了一个loss来防止多个物体相交。在如何encode分离物体特征上,采用了来自 " Object-centric learning with slot attention" 的方法。 * ![title](https://leanote.com/api/file/getImage?fileId=60ceb999ab644149231c2f08) ### GNeRF: GAN-based Neural Radiance Field without Posed Camera * 用了一个非常玄乎的方法做到了一件非常神奇的事情。 * 使用无标注的多视角图片还原一个3D模型。 * ![title](https://leanote.com/api/file/getImage?fileId=60ce2fb2ab6441492313dcd0) * 方法上是用一个输入随机 pose 输出图片的GAN来假设可以学到一个角度。通过 Phase A 和 Phase B 的迭代来得到训练集图片的 pose 对应的 hidden space。一个正确的 Pose 会是一个 AB 迭代的稳定解,但收敛是没有保证的。 * ![title](https://leanote.com/api/file/getImage?fileId=60ce2fe1ab6441472913e070)
上一篇:
20210621 NeRF专题笔记
下一篇:
GAN+分层图+场景解析相关
0
赞
1453 人读过
新浪微博
微信
腾讯微博
QQ空间
人人网
提交评论
立即登录
, 发表评论.
没有帐号?
立即注册
0
条评论
More...
文档导航
没有帐号? 立即注册