wuvin
Always take risks!
Toggle navigation
wuvin
主页
实验室的搬砖生活
机器学习
公开的学术内容
公开的其他内容
About Me
归档
标签
友情链接
ZYQN
ihopenot
enigma_aw
hzwer
杨宗翰
近期2D-Diffusion生成3D的论文
2023-11-11 00:22:48
128
0
0
wuvin
* ICLR 更新了不少文章,一个一个点评一下。 # NOISE-FREE SCORE DISTILLATION * 标题惊到我了。 * 文章很有意思,因为原来通过加噪解决OOD问题,本文想到为什么不直接处理OOD的数据。于是文章定义 $\delta_C = \epsilon_\phi(Z_t; y, t) − \epsilon_\phi(Z_t; ∅, t)$,也就是直接输入Z_t得到的条件去噪方向。那么SDS就能写成 $\epsilon_{\phi}(Z_t;∅, t) + s \delta_C$,其中 $\epsilon_{\phi}(Z_t;∅, t)$ 应当做无条件去噪。但由于 $Z_t$ 本身是有OOD数据加噪得到的,所以无法直接得到被预测的噪音。文章认为 $\epsilon_{\phi}(Z_t;∅, t)$ 是由 (domain correction)$\delta_D$ 和 (denoising direction)$\delta_N$ 组成。 * 下图是InDomain数据,OutOfDomain数据,预测的denoising direction,domain correction,添加了domain correction的OOD组成。 * ![title](https://leanote.com/api/file/getImage?fileId=654e5cf7ab6441793da5d650) * 文章认为 $\delta_N$ 是构成图像模糊的主要原因,因为错误的期望非零去噪。那么只用 $\delta_D$ 就能得到清晰的图像。 * 文章说,当 $t<200$ 的时候,$\delta_N$比较小可以忽略不计。当 $t>200$ 的时候,文章用一个(非常)奇特的方式估计 $\delta_D$。 * ![title](https://leanote.com/api/file/getImage?fileId=654e5e53ab6441793da5fe9c) * 这个方式其实本质上与vsd类似。 # STYLEDREAMER: MAKE YOUR 3D STYLE AVATAR FROM A SINGLE VIEW WITH CONSISTENCY SCORE DISTILLATION * vsd 套了一个 instructp2p。 * ![title](https://leanote.com/api/file/getImage?fileId=654ee58cab6441793da6c460) * ![title](https://leanote.com/api/file/getImage?fileId=654ee5b4ab6441793da6c461) * 没啥创新 # SWEETDREAMER: ALIGNING GEOMETRIC PRIORS IN 2D DIFFUSION FOR CONSISTENT TEXT-TO-3D * 引入了相机空间 * ![title](https://leanote.com/api/file/getImage?fileId=654ee61cab64417936a5cbfd) * ![title](https://leanote.com/api/file/getImage?fileId=654ee63aab64417936a5cbfe) * ![title](https://leanote.com/api/file/getImage?fileId=654ee668ab64417936a5cbff) # MVDREAM: MULTI-VIEW DIFFUSION FOR 3D GENERATION * 显式引入多视角关系,来避免multiface problem。 * ![title](https://leanote.com/api/file/getImage?fileId=654eea20ab6441793da6c486) * ![title](https://leanote.com/api/file/getImage?fileId=654eea34ab64417936a5cc1b) # Chasing Consistency in Text-to-3D Generation from a Single Image * 任务是单图像到3D。 * 也是通过引入显式几何估计提升质量。 * ![title](https://leanote.com/api/file/getImage?fileId=654eea80ab6441793da6c489) * ![title](https://leanote.com/api/file/getImage?fileId=654eeac3ab6441793da6c48d) * ![title](https://leanote.com/api/file/getImage?fileId=654eea94ab6441793da6c48a) # EfficientDreamer: High-Fidelity and Robust 3D Creation via Orthogonal-view Diffusion Prior * 通过改变生成时的相机位置,以及训练同时生成多视角的模型,来改善multiface的问题。 * ![title](https://leanote.com/api/file/getImage?fileId=654eeaeeab6441793da6c48f) * ![title](https://leanote.com/api/file/getImage?fileId=654eeb5fab64417936a5cc24) * 不过我是在想,他是怎么跑出这么差的prolific dreamer的。 * ![title](https://leanote.com/api/file/getImage?fileId=654eebb3ab64417936a5cc28) # IT3D: Improved Text-to-3D Generation with Explicit View Synthesis * 既然不能解决SDS的问题,为什么不试图增加一个后处理呢? * ![title](https://leanote.com/api/file/getImage?fileId=654ef625ab64417936a5cc6a) * ![title](https://leanote.com/api/file/getImage?fileId=654ef633ab64417936a5cc6b) * 通过image-to-image 来实现高质量的最终设计,然后试图反向映射回场景中。
上一篇:
近期单视角三位生成论文
下一篇:
HuggingFace 已有 StableDiffusion Pipelines 介绍
0
赞
128 人读过
新浪微博
微信
腾讯微博
QQ空间
人人网
提交评论
立即登录
, 发表评论.
没有帐号?
立即注册
0
条评论
More...
文档导航
没有帐号? 立即注册