wuvin
Always take risks!
Toggle navigation
wuvin
主页
实验室的搬砖生活
机器学习
公开的学术内容
公开的其他内容
About Me
归档
标签
友情链接
ZYQN
ihopenot
enigma_aw
hzwer
杨宗翰
CVPR 2023 3D生成
2023-01-07 21:27:00
336
0
0
wuvin
# Dream3D: Zero-Shot Text-to-3D Synthesis Using 3D Shape Prior and Text-to-Image Diffusion Models * 2D数据训练3D生成的方法。 * 先生成了形状,再进行染色。染色效果弱于现有工作,但是模型精细度更高。 * 有种作者不知道SDSLoss的感觉。 * ![title](https://leanote.com/api/file/getImage?fileId=63b90c22ab64411710a84028) # Rodin: A Generative Model for Sculpting 3D Digital Avatars Using Diffusion * 人像生成,看起来质量不错。3D数据训练3D生成的方法。 * ![title](https://leanote.com/api/file/getImage?fileId=63b90d22ab64411710a84036) * 生成部分采用了 Triplane 的方案。但结尾有个 Conv refinement,可能会带来3D不一致性。 * ![title](https://leanote.com/api/file/getImage?fileId=63b90d3fab64411710a84038) * 训练用了100K 3D avatars,3D模型由程序化生成。 * ![title](https://leanote.com/api/file/getImage?fileId=63b90e56ab64411710a84043) * 虽然质量不错,但是依旧回到为啥不直接用程序化生成,用AI我们到底获得了什么。 # Generative Scene Synthesis via Incremental View Inpainting using RGBD Diffusion Models * 通过不停的 RGBD 补全来生成大场景。 * ![title](https://leanote.com/api/file/getImage?fileId=63b90f7eab64411709a9f000) * ![title](https://leanote.com/api/file/getImage?fileId=63b90f9eab64411710a8404d) * 补全部分是个diffusion。 # SDFusion: Multimodal 3D Shape Completion, Reconstruction, and Generation * SDF 生成。 * ![title](https://leanote.com/api/file/getImage?fileId=63b9130bab64411709a9f01d) * 整体来说follow的是latent space diffusion. * ![title](https://leanote.com/api/file/getImage?fileId=63b91332ab64411710a8405f) * ![title](https://leanote.com/api/file/getImage?fileId=63b91457ab64411709a9f025) # DiffusionSDF: Conditional Generative Modeling of Signed Distance Functions * 本质上是向量Diffusion。最终形状生成比PVD强。 * 把点云编码后在隐空间做diffusion,然后用SDF拟合点云还原表面。 * ![title](https://leanote.com/api/file/getImage?fileId=63b9602bab64411710a84296) * ![title](https://leanote.com/api/file/getImage?fileId=63b96047ab64411709a9f295) * ![title](https://leanote.com/api/file/getImage?fileId=63b96074ab64411709a9f297) * ![title](https://leanote.com/api/file/getImage?fileId=63b9607bab64411710a8429a) # 3D-LDM: Neural Implicit 3D Shape Generation with Latent Diffusion Models * Latent Diffusion + SDF weight AE. * ![title](https://leanote.com/api/file/getImage?fileId=63b960c4ab64411710a8429d) * ![title](https://leanote.com/api/file/getImage?fileId=63b960e5ab64411710a8429e) # DiffDreamer: Consistent Single-view Perpetual View Generation with Conditional Diffusion Models * 具有三维一致性的视角拉近。相当于图片某一部分可以不停放大,放大过程是把摄像头推过去,利用生成模型补充未知部分。 * ![title](https://leanote.com/api/file/getImage?fileId=63b96242ab64411709a9f2a3) * ![title](https://leanote.com/api/file/getImage?fileId=63b96268ab64411710a842ab) * ![title](https://leanote.com/api/file/getImage?fileId=63b96283ab64411710a842ac) # NeRDi: Single-View NeRF Synthesis with Language-Guided Diffusion as General Image Priors * 哇!令人欣喜的结果,果真 Textual Inversion 效果更好!、 * 这篇神奇的是,新视角解析效果,比现有的Text-to-3D 生成效果好。 * ![title](https://leanote.com/api/file/getImage?fileId=63b96cefab64411709a9f2ee) * ![title](https://leanote.com/api/file/getImage?fileId=63b96d0bab64411710a842f7) * 那么2D高质量生成+3D同语义新视角生成+不确定性部分重新图像补全,应该会将现有的3D生成质量抬高一大个台阶。 * 训练上一共三个Loss。重建,生成,三维一致性。三维一致性部分使用了一个预训练的单视角深度估计网络,由于不是完全准确的,所以只把预测的深度和渲染深度的线性关联度(皮尔森系数)作为loss。 * ![title](https://leanote.com/api/file/getImage?fileId=63b96de5ab64411710a842fe) # 3DAvatarGAN: Bridging Domains for Personalized Editable Avatars * 非真实数据集上,学习一个人面部的生成模型。主要解决的是普通finetuning 会得到人脸几何变成平面的问题。 * 方法上使用预训练3D-GAN + 2D-stylized GAN,把问题当作Domain Adaptation 来处理。 * ![title](https://leanote.com/api/file/getImage?fileId=63c35f87ab64411709162584) * 训练上使用主要更新EG3D模型更后面的层和渲染层,同时对于结果的密度与原有密度做了一个L1-Loss来限制几何变化程度。 # MonoNeRF: Learning a Generalizable Dynamic Radiance Field from Monocular Videos * 从视频学习Optical Flow 实现D-NeRF视频生成. * ![title](https://leanote.com/api/file/getImage?fileId=63c36beeab644117091625e0) * 本文可以 End-to-End训练,而且许多网络模块可以多个视频通用,不再局限于单个视频。 * ![title](https://leanote.com/api/file/getImage?fileId=63c36d66ab644117091625f0) * 不少场景PSNR提升挺明显。 * ![title](https://leanote.com/api/file/getImage?fileId=63c36e90ab64411710147420) # DisCoScene: Spatially Disentangled Generative Radiance Fields for Controllable 3D-aware Scene Synthesis * 单独生成物体和背景,训练使用多张图像及每个物体在场景里的bbox。 * 这个比较厉害的是能在自动驾驶数据集上跑,可惜是GAN的框架,不过GIRAFFE后续工作确实挺少见。 * ![title](https://leanote.com/api/file/getImage?fileId=63c370c7ab64411709162608) * 效果比GIRAFFE好。 * ![title](https://leanote.com/api/file/getImage?fileId=63c3716aab64411710147442) # Correspondence Distillation from NeRF-based GAN * 有点意思,学习两个NeRF之间的空间上密集对应关系。 * ![title](https://leanote.com/api/file/getImage?fileId=63c3738aab64411709162617) * 方法就是Cycle-Consistency. * ![title](https://leanote.com/api/file/getImage?fileId=63c373aeab64411709162619) * 映射模块就是简单的MLP * ![title](https://leanote.com/api/file/getImage?fileId=63c37402ab64411710147456) * 应用上可以做风格迁移和3D label matching * ![title](https://leanote.com/api/file/getImage?fileId=63c3742dab6441170916261d) * ![title](https://leanote.com/api/file/getImage?fileId=63c37473ab64411710147459) # Diffusion-based Generation, Optimization, and Planning in 3D Scenes * 把Diffusion 用在三维场景下的运动规划、动作生成、动作优化。 * ![title](https://leanote.com/api/file/getImage?fileId=63d7e9a7ab6441170998f963) * ![title](https://leanote.com/api/file/getImage?fileId=63d7e9b3ab64411710974760) * 框架挺新的,效果似乎还行 * ![title](https://leanote.com/api/file/getImage?fileId=63d7e9cfab64411710974762) # InfiniCity: Infinite-Scale City Synthesis * 城市生成:生成无限大的城市,城市可以拥有RGB街景图、语义图、深度图。 * ![title](https://leanote.com/api/file/getImage?fileId=63d7ed54ab6441170998f97f) * 方法部件挺多,但是他搞work了! * ![title](https://leanote.com/api/file/getImage?fileId=63d7ede0ab6441170998f985) * ![title](https://leanote.com/api/file/getImage?fileId=63d7ee12ab64411710974780) # TEXTure: Text-Guided Texturing of 3D Shapes * 感觉和latent-nerf 那块挺像 * ![title](https://leanote.com/api/file/getImage?fileId=63f32d53ab6441171099c97d) * 流程基本一致,用了不少TI * ![title](https://leanote.com/api/file/getImage?fileId=63f32d76ab6441171099c980) * 我觉得他优于latent-paint 主要是贴图分辨率拉高了,1024x1024的贴图,1200x1200的渲染分辨率,而latent-paint只有128x128,512x512的渲染分辨率。以及额外利用了 depth2image 的 stable diffusion。 * ![title](https://leanote.com/api/file/getImage?fileId=63f32deeab6441171099c987) # Painting 3D Nature in 2D: View Synthesis of Natural Scenes from a Single Semantic Mask * SPADE 的加强版。可惜还是基于GAN的生成模型。感觉没啥创新性。 *![title](https://leanote.com/api/file/getImage?fileId=63f32faeab6441171099c9aa) * ![title](https://leanote.com/api/file/getImage?fileId=63f32fccab6441171099c9af) * ![title](https://leanote.com/api/file/getImage?fileId=63f33001ab6441171099c9b4)
上一篇:
NeRF 模态商用分析
下一篇:
华为车路协同数据集
0
赞
336 人读过
新浪微博
微信
腾讯微博
QQ空间
人人网
提交评论
立即登录
, 发表评论.
没有帐号?
立即注册
0
条评论
More...
文档导航
没有帐号? 立即注册