wuvin
Always take risks!
Toggle navigation
wuvin
主页
实验室的搬砖生活
机器学习
公开的学术内容
公开的其他内容
About Me
归档
标签
友情链接
ZYQN
ihopenot
enigma_aw
hzwer
杨宗翰
AIGC 新文章
2023-08-21 14:40:33
104
0
0
wuvin
# BakedSDF * 把 NeRF Unbounded 场景转化为高质量可以实时渲染的Mesh (经测试,144FPS需要70% 3060的性能,即60FPS可以在1050等级显卡上完成) * 流程是:NeRF-> a surface-based volumetric representation -> Mesh -> optimize a viewdependent appearance model with spherical Gaussians. * 相比 Mobile-NeRF, Deep Blending 有质量提升。 * ![title](https://leanote.com/api/file/getImage?fileId=64e30d8bab6441793605b919) * ![title](https://leanote.com/api/file/getImage?fileId=64e30e19ab6441793d06bc76) * ![title](https://leanote.com/api/file/getImage?fileId=64e30e62ab6441793605cc8b) # Rodin * 虽然是之前的老文章了,但专门又看了下它的 portrait inversion 部分。 * 这部分的实现很简单,就是在基础 Diffusion 部分增加 CLIP-Condition 然后finetune就行。 * ![title](https://leanote.com/api/file/getImage?fileId=64e30fb2ab6441793d06e1ea) # IntrinsicNeRF: Learning Intrinsic Neural Radiance Fields for Editable Novel View Synthesis * 做了我去年年中尝试了,但没继续的idea。 * 学习基本颜色、阴影和余量。然后完成室内更精确的NeRF重建。 * ![title](https://leanote.com/api/file/getImage?fileId=64e46b64ab6441793623d828) * 方案有意思的是用了类似聚类的方法合并同一类材质 * ![title](https://leanote.com/api/file/getImage?fileId=64e46b81ab6441793623d99e) * 或许可以用到之后的房间生成论文里。 # PoseDiffusion: Solving Pose Estimation via Diffusion-aided Bundle Adjustment * 结合了 Diffusion的相机姿态估计。 * 需要训练一个用来处理姿态估计的diffusion model。 * ![title](https://leanote.com/api/file/getImage?fileId=64e46e99ab64417936240093) * 看起来效果挺强 * ![title](https://leanote.com/api/file/getImage?fileId=64e46e87ab6441793623ffbe) # FreeDoM: Training-Free Energy-Guided Conditional Diffusion Model * ![title](https://leanote.com/api/file/getImage?fileId=64e46efaab6441793d24fdbb) * 使用各种预训练模型和构造 Energy Function 来控制生成。 * 如果有train在 noisy image 上的预训练模型,就可以做classier guidiance。然而多数现成的模型只在clean image上有,所以本文这么解决: * ![title](https://leanote.com/api/file/getImage?fileId=64e470d5ab6441793d25168e) * 然后本文直接用 clean image的期望代替 clean image。 * * ![title](https://leanote.com/api/file/getImage?fileId=64e47125ab6441793624228f) * 所以翻译过来的sample process 就是,先计算$x_{t-1}$,然后估计一个clean image $x_{0|t}$ 的均值当作clean image 给energy model作为梯度估计。 * ![title](https://leanote.com/api/file/getImage?fileId=64e47190ab6441793d252049) * 但是他们发现,这么搞会导致原来的文本引导失效,作者觉得是因为energy function的梯度容易bias到别的类别,导致原来类别control失效。但我个人猜测更多是因为 energy function影响后的结果更加OOD。 * 于是和Repaint一样反复做加噪去噪的操作。 * ![title](https://leanote.com/api/file/getImage?fileId=64e472efab6441793d2532e6) * 但这样很慢,所以作者分阶段分策略,第一阶段不用 energy guidiance 因为 $x_{0|t}$ 非常 Noisy。第二阶段再使用本文的完整策略。第三阶段作者就和第一阶段一样不用这个策略。 * ![title](https://leanote.com/api/file/getImage?fileId=64e473d6ab64417936244767) * 总的来说,有意思的一篇文章,但可改进的地方还挺多,看看作者有没有后续吧。 # BoxDiff: Text-to-Image Synthesis with Training-Free Box-Constrained Diffusion * 感觉这种 cross attention control 和之前的差不多,新意不太够。 * ![title](https://leanote.com/api/file/getImage?fileId=64e47763ab6441793d256d23) # Iterative alpha-(de)Blending: a Minimalist Deterministic Diffusion Model * 很有意思的一篇文章,文章最大贡献在于“我们推导了一个极简扩散模型。 我们获得的扩散模型几乎与现有模型相当,但重点是我们认为比现有模型更简单的推导。” * 把加噪去噪过程,改成了对于噪音和当前图像之间的差值。 * 并且推到说明了,当去噪步数增加足够多时,随机噪音到生成结果之间的映射的不确定性是越来越小的。 * ![title](https://leanote.com/api/file/getImage?fileId=64e47c69ab6441793624b201) # COFS: Controllable Furniture layout Synthesis * 使用 Transformer 做家具摆放生成的工作,或许可以和我们的工作结合。 * ![title](https://leanote.com/api/file/getImage?fileId=64e47d4fab6441793d25b653) * ![title](https://leanote.com/api/file/getImage?fileId=64e47d5bab6441793624bef2) * ![title](https://leanote.com/api/file/getImage?fileId=64e47d6fab6441793624c013) # Encoder-based Domain Tuning for Fast Personalization of Text-to-Image Models * 这个方向已经卷到finetuning steps 了嘛 * ![title](https://leanote.com/api/file/getImage?fileId=64e4d968ab6441793d2a9b3c) * 方法很简单—— TI 慢是因为每次要迭代求解,为什么不直接预测一个呢?左边蓝色部分的任务是预测一个合适的TI。而coarse-class是根据类别预先学习的TI均值。 * ![title](https://leanote.com/api/file/getImage?fileId=64e4dccdab6441793629cf78) * 右边则是在 personalization 中,不同层的作用效果不同,所以对于不同层需要有不同的加权。因此右边起到了类似LoRA的效果。 * 最终效果差不多和 TI+DreamBooth差不多。 # Others * 看siggraph的文章列表,惊了,清华自动化系刘烨斌老师组,siggraph2023 中了五篇文章,全是人脸表情相关的 * LatentAvatar: Learning Latent Expression Code for Expressive Neural Head Avatar * AvatarMAV: Fast 3D Head Avatar Reconstruction Using Motion-Aware Neural Voxels * StyleAvatar: Real-time Photo-realistic Portrait Avatar from a Single Video * PoseVocab: Learning Joint-structured Pose Embeddings for Human Avatar Modeling * AvatarReX: Real-time Expressive Full-body Avatars
上一篇:
人体相关NeRF文章
下一篇:
近期2D GAN生成3D的论文
0
赞
104 人读过
新浪微博
微信
腾讯微博
QQ空间
人人网
提交评论
立即登录
, 发表评论.
没有帐号?
立即注册
0
条评论
More...
文档导航
没有帐号? 立即注册