wuvin
Always take risks!
Toggle navigation
wuvin
主页
实验室的搬砖生活
机器学习
公开的学术内容
公开的其他内容
About Me
归档
标签
友情链接
ZYQN
ihopenot
enigma_aw
hzwer
杨宗翰
近期单视角三位生成论文
2023-11-20 13:10:00
113
0
0
wuvin
* 从 Zero123 开始数吧 # Zero-1-to-3: Zero-shot One Image to 3D Object * 通过在objaverse 上大规模训练得到具有一定泛化能力的,condition on 相机视角和参考图的 Diffusion。 * 但并没有像 SD 那样强大的泛化能力。 * ![title](https://leanote.com/api/file/getImage?fileId=655aea57ab6441793db1f706) * 虽然有一些泛化能力,但后续文章指出,这泛化能力并不多 * ![title](https://leanote.com/api/file/getImage?fileId=655aeab4ab6441793db1f70c) * 似乎相比同期方法有显著提升(但后续文章来看,SJC-I在这里被严重低估了): * ![title](https://leanote.com/api/file/getImage?fileId=655aeb87ab6441793db1f71a) # Magic123: One Image to High-Quality 3D Object Generation Using Both 2D and 3D Diffusion Priors * 指出了 Zero-1-to-3 存在的问题—— OOD的情况下表现不好。 * ![title](https://leanote.com/api/file/getImage?fileId=655aeaf9ab6441793db1f711) * 这里的2D prior 是指SDS,而3D prior 是指 Zero-1-to-3 * ![title](https://leanote.com/api/file/getImage?fileId=655aeb29ab6441793db1f714) * 至少本文说明了,纯二维SDS只能做单视角生成的,没有Zero123说的那么差。 * ![title](https://leanote.com/api/file/getImage?fileId=655aeba6ab6441793db1f71c) * 其实相比后续文章,这篇的数值指标是最差的(相对Zero-1-to-3没啥提升),但是确实唯一一个有泛化能力保障的。(即没有自己在中小规模数据上finetune) * ![title](https://leanote.com/api/file/getImage?fileId=655aebbcab6441793db1f71e) **接下来是有趣的三篇同期、同名工作** # Consistent-1-to-3: Consistent Image to 3D View Synthesis via Geometry-aware Diffusion Models * 这是三兄弟里最强的 * ![title](https://leanote.com/api/file/getImage?fileId=655b01bdab6441793db1f88c) * ![title](https://leanote.com/api/file/getImage?fileId=655b01d9ab6441793db1f88e) * UNet Attention 部分引入 epipolar 限制(epipolar在MVS等少视角重建真是屡试不爽) * ![title](https://leanote.com/api/file/getImage?fileId=655b01e8ab6441793db1f890) * ![title](https://leanote.com/api/file/getImage?fileId=655b0223ab6441793db1f898) * 如同 Zero-123 一样,在Objaverse上训练的。需要注意的是,**和Zero123一样限制在单个物体,且必须白色背景!** # CONSISTENT123:ONE IMAGE TO HIGHLY CONSISTENT 3D ASSET USING CASE-AWARE DIFFUSION PRIORS * ![title](https://leanote.com/api/file/getImage?fileId=655b027bab6441793db1f8a0) * 质量差一些,但是,没有训练新模型!保证了泛化能力。 * ![title](https://leanote.com/api/file/getImage?fileId=655b0470ab6441793db1f8c2) * 感觉基于 Magic123的创新性少了些。 * ![title](https://leanote.com/api/file/getImage?fileId=655b0463ab6441793db1f8c0) # CONSISTENT123: IMPROVE CONSISTENCY FOR ONE IMAGE TO 3D OBJECT SYNTHESIS * ![title](https://leanote.com/api/file/getImage?fileId=655b063bab6441793db1f8de) * 思路更类似于 Zero123++,多个视角同时去噪,学习多视角联合分布。 * ![title](https://leanote.com/api/file/getImage?fileId=655b07b0ab6441793db1f8f2) # TOSS: HIGH-QUALITY TEXT-GUIDED NOVEL VIEW SYNTHESIS FROM A SINGLE IMAGE * ![title](https://leanote.com/api/file/getImage?fileId=655b0b1aab6441793db1f926) * ![title](https://leanote.com/api/file/getImage?fileId=655b0b20ab6441793db1f927) * ![title](https://leanote.com/api/file/getImage?fileId=655b0b6dab6441793db1f92c) * 质量差一些,但是推理量更低的方案。(训练要8A100 7 天)。 # Wonder3D: Single Image to 3D using Cross-Domain Diffusion * 感觉质量更高的一篇 * ![title](https://leanote.com/api/file/getImage?fileId=655b0c1cab6441793db1f938) * ![title](https://leanote.com/api/file/getImage?fileId=655b0c2dab6441793db1f93a) * ![title](https://leanote.com/api/file/getImage?fileId=655b0c42ab6441793db1f93c) * ![title](https://leanote.com/api/file/getImage?fileId=655b0b9dab6441793db1f92f) * Objaverse数据集,训练从 SD初始值开始,8卡A800 训练3天。 * ![title](https://leanote.com/api/file/getImage?fileId=655b0c91ab6441793db1f941)
上一篇:
ReadingList
下一篇:
近期2D-Diffusion生成3D的论文
0
赞
113 人读过
新浪微博
微信
腾讯微博
QQ空间
人人网
提交评论
立即登录
, 发表评论.
没有帐号?
立即注册
0
条评论
More...
文档导航
没有帐号? 立即注册