wuvin
Always take risks!
Toggle navigation
wuvin
主页
实验室的搬砖生活
机器学习
公开的学术内容
公开的其他内容
About Me
归档
标签
友情链接
ZYQN
ihopenot
enigma_aw
hzwer
杨宗翰
AIGC 新文章
2023-08-21 14:40:33
128
0
0
wuvin
# BakedSDF * 把 NeRF Unbounded 场景转化为高质量可以实时渲染的Mesh (经测试,144FPS需要70% 3060的性能,即60FPS可以在1050等级显卡上完成) * 流程是:NeRF-> a surface-based volumetric representation -> Mesh -> optimize a viewdependent appearance model with spherical Gaussians. * 相比 Mobile-NeRF, Deep Blending 有质量提升。 *  *  *  # Rodin * 虽然是之前的老文章了,但专门又看了下它的 portrait inversion 部分。 * 这部分的实现很简单,就是在基础 Diffusion 部分增加 CLIP-Condition 然后finetune就行。 *  # IntrinsicNeRF: Learning Intrinsic Neural Radiance Fields for Editable Novel View Synthesis * 做了我去年年中尝试了,但没继续的idea。 * 学习基本颜色、阴影和余量。然后完成室内更精确的NeRF重建。 *  * 方案有意思的是用了类似聚类的方法合并同一类材质 *  * 或许可以用到之后的房间生成论文里。 # PoseDiffusion: Solving Pose Estimation via Diffusion-aided Bundle Adjustment * 结合了 Diffusion的相机姿态估计。 * 需要训练一个用来处理姿态估计的diffusion model。 *  * 看起来效果挺强 *  # FreeDoM: Training-Free Energy-Guided Conditional Diffusion Model *  * 使用各种预训练模型和构造 Energy Function 来控制生成。 * 如果有train在 noisy image 上的预训练模型,就可以做classier guidiance。然而多数现成的模型只在clean image上有,所以本文这么解决: *  * 然后本文直接用 clean image的期望代替 clean image。 * *  * 所以翻译过来的sample process 就是,先计算$x_{t-1}$,然后估计一个clean image $x_{0|t}$ 的均值当作clean image 给energy model作为梯度估计。 *  * 但是他们发现,这么搞会导致原来的文本引导失效,作者觉得是因为energy function的梯度容易bias到别的类别,导致原来类别control失效。但我个人猜测更多是因为 energy function影响后的结果更加OOD。 * 于是和Repaint一样反复做加噪去噪的操作。 *  * 但这样很慢,所以作者分阶段分策略,第一阶段不用 energy guidiance 因为 $x_{0|t}$ 非常 Noisy。第二阶段再使用本文的完整策略。第三阶段作者就和第一阶段一样不用这个策略。 *  * 总的来说,有意思的一篇文章,但可改进的地方还挺多,看看作者有没有后续吧。 # BoxDiff: Text-to-Image Synthesis with Training-Free Box-Constrained Diffusion * 感觉这种 cross attention control 和之前的差不多,新意不太够。 *  # Iterative alpha-(de)Blending: a Minimalist Deterministic Diffusion Model * 很有意思的一篇文章,文章最大贡献在于“我们推导了一个极简扩散模型。 我们获得的扩散模型几乎与现有模型相当,但重点是我们认为比现有模型更简单的推导。” * 把加噪去噪过程,改成了对于噪音和当前图像之间的差值。 * 并且推到说明了,当去噪步数增加足够多时,随机噪音到生成结果之间的映射的不确定性是越来越小的。 *  # COFS: Controllable Furniture layout Synthesis * 使用 Transformer 做家具摆放生成的工作,或许可以和我们的工作结合。 *  *  *  # Encoder-based Domain Tuning for Fast Personalization of Text-to-Image Models * 这个方向已经卷到finetuning steps 了嘛 *  * 方法很简单—— TI 慢是因为每次要迭代求解,为什么不直接预测一个呢?左边蓝色部分的任务是预测一个合适的TI。而coarse-class是根据类别预先学习的TI均值。 *  * 右边则是在 personalization 中,不同层的作用效果不同,所以对于不同层需要有不同的加权。因此右边起到了类似LoRA的效果。 * 最终效果差不多和 TI+DreamBooth差不多。 # Others * 看siggraph的文章列表,惊了,清华自动化系刘烨斌老师组,siggraph2023 中了五篇文章,全是人脸表情相关的 * LatentAvatar: Learning Latent Expression Code for Expressive Neural Head Avatar * AvatarMAV: Fast 3D Head Avatar Reconstruction Using Motion-Aware Neural Voxels * StyleAvatar: Real-time Photo-realistic Portrait Avatar from a Single Video * PoseVocab: Learning Joint-structured Pose Embeddings for Human Avatar Modeling * AvatarReX: Real-time Expressive Full-body Avatars
上一篇:
人体相关NeRF文章
下一篇:
近期2D GAN生成3D的论文
0
赞
128 人读过
新浪微博
微信
腾讯微博
QQ空间
人人网
提交评论
立即登录
, 发表评论.
没有帐号?
立即注册
0
条评论
More...
文档导航
没有帐号? 立即注册