wuvin
Always take risks!
Toggle navigation
wuvin
主页
实验室的搬砖生活
机器学习
公开的学术内容
公开的其他内容
About Me
归档
标签
友情链接
ZYQN
ihopenot
enigma_aw
hzwer
杨宗翰
NeRF 编辑2023进展
2023-04-22 19:12:46
144
0
0
wuvin
# NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models * 三维场景生成 * ![title](https://leanote.com/api/file/getImage?fileId=6443c4a0ab64411710aeae26) * 输入图像先通过一个Unet预测一个近似的深度+语义的分布[H,W,D+C],即D编码了这个像素对应的体积分布,C编码了这个像素对应的语义。这里[H,W]是小于图像分辨率的。 * ![title](https://leanote.com/api/file/getImage?fileId=6443c6d7ab64411710aeae58) * ![title](https://leanote.com/api/file/getImage?fileId=6443c738ab64411710aeae61) * 这是这个组ECCV2020的工作,然后把这个映射到三维体素空间。 * ![title](https://leanote.com/api/file/getImage?fileId=6443c8baab64411710aeae7c) * 注意这里的渲染是先在有界体素渲染了一个语义、深度空间,然后再用Decoder完成图像化。所以实际上Decoder还完成了对于天空和空白部分的填补。 * 在这之后就是模仿LDM,但是分成三部分,一个全局向量、二维语义俯视图、三维场景体素。然后三个diffusion分别学习。 * 这样就获得了一个可以从噪音生成场景的模型。 * ![title](https://leanote.com/api/file/getImage?fileId=6443c828ab64411710aeae71) * ![title](https://leanote.com/api/file/getImage?fileId=6443cbd7ab64411710aeaeb3) * 通过控制全局向量和BEV同样实现了一些常见编辑,比如风格化、体素编辑。 * ![title](https://leanote.com/api/file/getImage?fileId=6443cbfbab64411710aeaeb7) * ![title](https://leanote.com/api/file/getImage?fileId=6443c868ab64411710aeae76) * ![title](https://leanote.com/api/file/getImage?fileId=6443cc32ab64411710aeaebb) ### 总结 * 新的处理无界场景的思路——有限体素+NN decoder。 * 新的三维体积生成思路——先多视角RGBD+语义映射,再可微渲染微调改进。 # free NeRF * 使用对于position encoding 的正则化和对于体积不相交的正则化实现了更好的 few-shot。 * ![title](https://leanote.com/api/file/getImage?fileId=6443d494ab64411710aeaf49) * ![title](https://leanote.com/api/file/getImage?fileId=6443d5a9ab64411710aeaf5f) * 既然来自于频率,那么早期频率别设置那么高就行。 * ![title](https://leanote.com/api/file/getImage?fileId=6443d60fab64411710aeaf66) * 很好的分析了原来few-shot artifacts 的来源 * ![title](https://leanote.com/api/file/getImage?fileId=6443d552ab64411710aeaf58) * 就是来自于本来应该在很远的地方,但是由于很近的话,也能满足条件,那么就容易学的很近。 * 处理方法很粗暴,直接惩罚接近相机的体素。 * ![title](https://leanote.com/api/file/getImage?fileId=6443d718ab64411710aeaf77) * 效果比regNeRF 更好,除了似乎可能多一些超参。 * ![title](https://leanote.com/api/file/getImage?fileId=6443d74bab64411710aeaf7c) * ![title](https://leanote.com/api/file/getImage?fileId=6443d781ab64411710aeaf7f) * ![title](https://leanote.com/api/file/getImage?fileId=6443d7a0ab64411710aeaf83) # DITTO-NeRF: Diffusion-based Iterative Text To Omni-directional 3D Model * NeRF + SDS的工作,但更精细处理了生成过程,从粗糙到精细+从正面视角到更广范围的视角 * ![title](https://leanote.com/api/file/getImage?fileId=6443d92fab64411710aeafa0) * ![title](https://leanote.com/api/file/getImage?fileId=6443d9ebab64411710aeafad) * ![title](https://leanote.com/api/file/getImage?fileId=6443da1cab64411710aeafb1) * ![title](https://leanote.com/api/file/getImage?fileId=6443da35ab64411710aeafb4) # GeNVS: Generative Novel View Synthesis with 3D-Aware Diffusion Models * 效果很惊艳,但限制很大 * ![title](https://leanote.com/api/file/getImage?fileId=64440f71ab64411710aeb3ab) * 就是训练了一个带条件的去噪模型,T的结构是DeepLabV3+,输出$c\times d$个channel. * ![title](https://leanote.com/api/file/getImage?fileId=64440f88ab64411710aeb3b5) * 每个数据集上的One-Shot Reconstruction 需要这个数据集上对应训练的模型。 * 结合方法和效果来讲,总觉得数据集划分是有问题的。 # Make-It-3D: High-Fidelity 3D Creation from A Single Image with Diffusion Prior * ![title](https://leanote.com/api/file/getImage?fileId=6444a818ab64411710aebeab) * ![title](https://leanote.com/api/file/getImage?fileId=6444a85aab64411710aebeb2) * 第一阶段训练基本上是常规操作,主视角限制+基于SDS的其他视角生成。多了两部分,一个是基于深度估计的监督信息,一个是基于CLIP-D(就是CLIP encoder 编码后的对齐,原因是SDS是conditioned on text的)的。一点细节,因为StableDiffusion是多步去噪,所以SDS用在timestep很大的时候,CLIP用在timestep很小的时候。 * ![title](https://leanote.com/api/file/getImage?fileId=6444a8ccab64411710aebec2) * 第二步则是正常的优化生成mesh的质量,先转textured PCD,然后再多视角渲染映射回去。相当于之前的texture用SD染色。 * 叠了这么多trick,最终效果确实还不错。 * ![title](https://leanote.com/api/file/getImage?fileId=6444aab6ab64411710aebef0) * 但质量提升的代价肯定是稳定性的降低,无论是深度估计fail,还是SDS / CLIP fail或者是点云材质重建fail,肯定都会极大影响结果。 # NeRFshop: Interactive Editing of Neural Radiance Fields * [视频](https://repo-sam.inria.fr/fungraph/nerfshop/) * 相当于做一个NeRF的编辑软件,工程性较多,但是功能相对完善。 * 处理方法上没有太多创新,但是确实看demo软件做的挺完善。 * ![title](https://leanote.com/api/file/getImage?fileId=6444ae02ab64411710aebf68) # LERF Language Embedded Radiance Fields * 类似于CLIP-3D 做到NeRF上 * ![title](https://leanote.com/api/file/getImage?fileId=6444ae83ab64411710aebf76) * 方法上就是正常的可微渲染把CLIP Feature给丢到图上。 * ![title](https://leanote.com/api/file/getImage?fileId=6444ae9dab64411710aebf79) * 有点小的额外处理 * ![title](https://leanote.com/api/file/getImage?fileId=6444aecbab64411710aebf7e) * **也利用无监督分割来提升准确性** * ![title](https://leanote.com/api/file/getImage?fileId=6444aeeaab64411710aebf82) # InstructPix2Pix * GPT-3 + Stable Diffusion * ![title](https://leanote.com/api/file/getImage?fileId=6444b012ab64411710aebf9d) * 做法很优雅,甚至不需要训练 * ![title](https://leanote.com/api/file/getImage?fileId=6444b029ab64411710aebfa1) * 即使用GPT-3 训练一个转化prompt的模型,然后根据新的prompt来做生成,去噪过程中注入原图来保证结构上的一致性(换到现在应该可以用 ControlNet)。 # Instruct-NeRF2NeRF: Editing 3D Scenes with Instructions * 核心来自于 instructPix2Pix * ![title](https://leanote.com/api/file/getImage?fileId=6444af21ab64411710aebf86) * ![title](https://leanote.com/api/file/getImage?fileId=6444b087ab64411710aebfa9) * 最主要的是,一边重建,一边做风格转化。每次更新一小部分图像,然后训练nerf到收敛,再更新一部分。 * ![title](https://leanote.com/api/file/getImage?fileId=6444b0bbab64411710aebfaf) # 一些其他领域重要进展 ## SAM * 有监督大规模预训练 * 如何处理网络可能输出很多种分割结果(比如局部、大部分、整体)——梯度回传只回传loss最小的那个。 * 人工标注部分数据+半监督标注小物体+自动无监督标注大量图片。 ## DINOv2 * DINOv1 是自监督自蒸馏模型,老师采用学生的指数权重平均作为权重,老师输入时全局信息,学生输入local patch。训练采用了很多防止模型坍塌的方法。 * v2 重要的部分在收集大量数据和清洗数据。自监督方法是由多个损失函数组成的包括DINO,iBOT,SwAV。以及很多训练trick来实现提点。 * 在一系列下游任务上都有不错的效果: * ![title](https://leanote.com/api/file/getImage?fileId=6443d0d0ab64411710aeaf08) * OOD 的单目深度非常不错 * ![title](https://leanote.com/api/file/getImage?fileId=6443cde5ab64411710aeaed8)
上一篇:
基于 Cross Attention 的 SD 控制
下一篇:
Adding Conditional Control to Text-to-Image Diffusion Models
0
赞
144 人读过
新浪微博
微信
腾讯微博
QQ空间
人人网
提交评论
立即登录
, 发表评论.
没有帐号?
立即注册
0
条评论
More...
文档导航
没有帐号? 立即注册