wuvin
Always take risks!
Toggle navigation
wuvin
主页
实验室的搬砖生活
机器学习
公开的学术内容
公开的其他内容
About Me
归档
标签
友情链接
ZYQN
ihopenot
enigma_aw
hzwer
杨宗翰
CVPR 2023 3D生成
2023-01-07 21:27:00
361
0
0
wuvin
# Dream3D: Zero-Shot Text-to-3D Synthesis Using 3D Shape Prior and Text-to-Image Diffusion Models * 2D数据训练3D生成的方法。 * 先生成了形状,再进行染色。染色效果弱于现有工作,但是模型精细度更高。 * 有种作者不知道SDSLoss的感觉。 *  # Rodin: A Generative Model for Sculpting 3D Digital Avatars Using Diffusion * 人像生成,看起来质量不错。3D数据训练3D生成的方法。 *  * 生成部分采用了 Triplane 的方案。但结尾有个 Conv refinement,可能会带来3D不一致性。 *  * 训练用了100K 3D avatars,3D模型由程序化生成。 *  * 虽然质量不错,但是依旧回到为啥不直接用程序化生成,用AI我们到底获得了什么。 # Generative Scene Synthesis via Incremental View Inpainting using RGBD Diffusion Models * 通过不停的 RGBD 补全来生成大场景。 *  *  * 补全部分是个diffusion。 # SDFusion: Multimodal 3D Shape Completion, Reconstruction, and Generation * SDF 生成。 *  * 整体来说follow的是latent space diffusion. *  *  # DiffusionSDF: Conditional Generative Modeling of Signed Distance Functions * 本质上是向量Diffusion。最终形状生成比PVD强。 * 把点云编码后在隐空间做diffusion,然后用SDF拟合点云还原表面。 *  *  *  *  # 3D-LDM: Neural Implicit 3D Shape Generation with Latent Diffusion Models * Latent Diffusion + SDF weight AE. *  *  # DiffDreamer: Consistent Single-view Perpetual View Generation with Conditional Diffusion Models * 具有三维一致性的视角拉近。相当于图片某一部分可以不停放大,放大过程是把摄像头推过去,利用生成模型补充未知部分。 *  *  *  # NeRDi: Single-View NeRF Synthesis with Language-Guided Diffusion as General Image Priors * 哇!令人欣喜的结果,果真 Textual Inversion 效果更好!、 * 这篇神奇的是,新视角解析效果,比现有的Text-to-3D 生成效果好。 *  *  * 那么2D高质量生成+3D同语义新视角生成+不确定性部分重新图像补全,应该会将现有的3D生成质量抬高一大个台阶。 * 训练上一共三个Loss。重建,生成,三维一致性。三维一致性部分使用了一个预训练的单视角深度估计网络,由于不是完全准确的,所以只把预测的深度和渲染深度的线性关联度(皮尔森系数)作为loss。 *  # 3DAvatarGAN: Bridging Domains for Personalized Editable Avatars * 非真实数据集上,学习一个人面部的生成模型。主要解决的是普通finetuning 会得到人脸几何变成平面的问题。 * 方法上使用预训练3D-GAN + 2D-stylized GAN,把问题当作Domain Adaptation 来处理。 *  * 训练上使用主要更新EG3D模型更后面的层和渲染层,同时对于结果的密度与原有密度做了一个L1-Loss来限制几何变化程度。 # MonoNeRF: Learning a Generalizable Dynamic Radiance Field from Monocular Videos * 从视频学习Optical Flow 实现D-NeRF视频生成. *  * 本文可以 End-to-End训练,而且许多网络模块可以多个视频通用,不再局限于单个视频。 *  * 不少场景PSNR提升挺明显。 *  # DisCoScene: Spatially Disentangled Generative Radiance Fields for Controllable 3D-aware Scene Synthesis * 单独生成物体和背景,训练使用多张图像及每个物体在场景里的bbox。 * 这个比较厉害的是能在自动驾驶数据集上跑,可惜是GAN的框架,不过GIRAFFE后续工作确实挺少见。 *  * 效果比GIRAFFE好。 *  # Correspondence Distillation from NeRF-based GAN * 有点意思,学习两个NeRF之间的空间上密集对应关系。 *  * 方法就是Cycle-Consistency. *  * 映射模块就是简单的MLP *  * 应用上可以做风格迁移和3D label matching *  *  # Diffusion-based Generation, Optimization, and Planning in 3D Scenes * 把Diffusion 用在三维场景下的运动规划、动作生成、动作优化。 *  *  * 框架挺新的,效果似乎还行 *  # InfiniCity: Infinite-Scale City Synthesis * 城市生成:生成无限大的城市,城市可以拥有RGB街景图、语义图、深度图。 *  * 方法部件挺多,但是他搞work了! *  *  # TEXTure: Text-Guided Texturing of 3D Shapes * 感觉和latent-nerf 那块挺像 *  * 流程基本一致,用了不少TI *  * 我觉得他优于latent-paint 主要是贴图分辨率拉高了,1024x1024的贴图,1200x1200的渲染分辨率,而latent-paint只有128x128,512x512的渲染分辨率。以及额外利用了 depth2image 的 stable diffusion。 *  # Painting 3D Nature in 2D: View Synthesis of Natural Scenes from a Single Semantic Mask * SPADE 的加强版。可惜还是基于GAN的生成模型。感觉没啥创新性。 * *  * 
上一篇:
NeRF 模态商用分析
下一篇:
华为车路协同数据集
0
赞
361 人读过
新浪微博
微信
腾讯微博
QQ空间
人人网
提交评论
立即登录
, 发表评论.
没有帐号?
立即注册
0
条评论
More...
文档导航
没有帐号? 立即注册