2023-04-23 19:33:17
679
0
0
Training-Free Layout Control with Cross-Attention Guidance
- 方法还是老一套,就是控制Cross-Attention,但是使用的是b
2023-04-22 19:12:46
87
0
0
总结
- 新的处理无界场景的思路——有限体素+NN decoder。
- 新的三维体积生成思路——先多视角RGBD+语义映射,再可微渲染微调改进。
GeNVS: Generative Novel View Synthesis with 3D-Aware Diffusion Models
- 效果很惊艳,但限制很大
- 就是训练了一个带条件的去噪模
2023-03-02 15:57:10
112
0
0
ControlNet
- 全新的架构思路,极好的效果和较低的训练开销。
- 任务目标,使用图片去控制diffusion的精准生成,效果极好,将SD的可控性提升了相当大的尺度。
- 最重要的几个trick:
- zero convolution,初始权重和bias都是0的卷积,可以保证作为额外的参数初始的时候,不会破坏原有网络inference的结果,也就是初始化在一个合理的位置,以及梯度不为0是可以训练的。
- trainable copy. 把原有网络复制一遍,然后配合 zero convolution 进行训练。
- jointly optimization. 数据集非常大时,可以使用大规模训练,也就是先训练好额外的部分,然后把锁定的权重解锁来联合优化。
2023-01-29 10:24:57
247
0
0
短期
- 短期主要方式为向Mesh兼容。主要体现形式为求解NeRF表征对应的最接近的Mesh表征,Mesh表征为基于三角网格与PBS材质的表征形式。Mesh转换分为两部分,第一部分为形状转换,第二部分为材质转换。
- 形状转换部分目前有基于 Marching Cube的直接转换和先拟合SDF再Marching Cube转换的方式。直接marching cube 转换的方式由于 NeRF 本身表面部分收敛结果较为不平整,所以通常结果可用用`灾难'形容。先拟合SDF再转Mesh的方式得到表面相对平滑可接受,目前主要代表为 NeuS 和 Instant-NSR。但使用marching cube 算法得到的Mesh 在应用中最常见的问题是表面太多了,相当于一个正常平面被强行切成很多网格小面,而且表面分布非常混乱。
- 材质转换部分目前研究工作较多,例如开源框架Pytorch3D 就非常简易的实现该功能。nvidia 的 NVDiffrast 也提供了相当便捷的Pytorch/Tensorflow 库和良好的硬件支持。
- 特别的 NVDiffrec 把这两者都完成了。值得一提的是 Tiny CUDANN 提供了非常广泛的隐式表征加速。
长期
- 长期方向应该是直接使用 NeRF 渲染。但主要问题是无法编辑、硬件支持性低、渲染开销高。
- 在快速渲染方面,mobile-nerf 已经实现了小模型手机端60fps的渲染,更多的硬件支持还比较缺乏。
- 在编辑方面只能说勉强实现了编辑,编辑便捷性和软件支持远不如Mesh,但编辑结果离真实结果还有差距。比如两个物体放在一起,很难把物体和物体之间的光效果体现出来(镜面反射、漫反射)。
2023-01-07 21:27:00
210
0
0
Dream3D: Zero-Shot Text-to-3D Synthesis Using 3D Shape Prior and Text-to-Image Diffusion Models
- 2D数据训练3D生成的方法。
- 先生成了形状,再进行染色。染色效果弱于现有工作,但是模型精细度更高。
- 有种作者不知道SDSLoss的感觉。
Generative Scene Synthesis via Incremental View Inpainting using RGBD Diffusion Models
- 通过不停的 RGBD 补全来生成大场景。
- 补全部分是个diffusion。
3D-LDM: Neural Implicit 3D Shape Generation with Latent Diffusion Models
- Latent Diffusion + SDF weight AE.
2022-12-30 10:56:43
119
0
0
- 多车协同
Latency-aware collaborative perception
- 联合感知
V2X-Sim: Multi-agent collaborative perception dataset and benchmark for autonomous driving
V2X-Sim: Multi-agent collaborative perception dataset and benchmark for autonomous driving
Object detection based on roadside LiDAR for cooperative driving automation: a review
Where2comm: Communication-efficient collaborative perception via spatial confidence maps
- 车路协同,强调通信效率
V2XP-ASG: Generating Adversarial Scenes for Vehicle-to-Everything Perception
- V2X
Object Detection Based on Roadside LiDAR for Cooperative Driving A
2022-12-19 23:20:41
62
0
0
/bin/sh: 1: :/usr/local/cuda/bin/nvcc: not found
ninja: build stopped: subcommand failed.
- 经过检查,安装了 nvcc,且添加了 PATH 和 LD_LIBRARY_PATH 对cuda的引用。
- 并且检查了 /usr/local/cuda/bin/nvcc 文件是64位的且不是一个链接。
- 且检查了 CUDA_HOME 变量已配置,最后下面一句话后,发现就可以编译了
export CUDA_HOME=/usr/local/cuda
- 仔细检查发现原来 CUDA_HOME 配置错误为
:/usr/local/cuda
(是的就是多了个:
),配置错误原因为 /etc/.profile
里写的是 export CUDA_HOME=$CUDA_HOME:/usr/local/cuda
。
- CUDA_HOME 变量不支持
:
分隔符,只能是一个固定的路径地址。
2022-12-07 14:48:15
70
0
0
NOVEL VIEW SYNTHESIS WITH DIFFUSION MODELS
2022-12-06 15:48:26
310
0
0
SinGRAF: Learning a 3D Generative Radiance Field for a Single Scene
- 和我之前做 SinRGAN 的思路类似,但setting不一样。
- 给定一组图片(100张),训练生成模型生成多种符合条件的场景。
- 结构很简单,StyleGAN + tri-plane + patch discriminator。
DiffRF: Rendering-Guided 3D Radiance Field Diffusion
- 纯 voxel 的 diffusion,且缺少量化指标。而且point-voxel diffusion 那篇已经把这个作为baseline干过了。
LADIS: Language Disentanglement for 3D Shape Editing
- 基于文字控制的三维编辑,但是效果不咋地,只在椅子上做了实验,我怀疑它中不了CVPR
Peekaboo: Text to Image Diffusion Models are Zero-Shot Segmentors
2022-12-04 22:23:03
128
0
0
SKETCHKNITTER: VECTORIZED SKETCH GENERATION WITH DIFFUSION MODELS
- 画简笔画
Diffusion-GAN: Training GANs with Diffusion
- 结合GAN和 Diffusion 的优劣。分为三块: diffusion 过程、结合了diffusion 时间的discriminator、generator。
- diffusion过程种,discriminator判断是真的图片加噪音,还是generator 去噪后的结果。
DIFFUSION PROBABILISTIC FIELDS
- 很有意义的工作,虽然图像质量不咋地。ICLR评分 8,8,6,6.
- 直接在域上进行diffusion, 相当于是把原来离散的diffusion变成连续的了,而且通用性更强。
View Synthesis with Sculpted Neural Points
- 又是一个点云+NeRF 的工作,可惜作者似乎没看过Point-NeRF,没有直接的对比。
- 方法上是先用MVS或者别的方法生成一个粗糙的深度估计,从而得到一个noisy的点云。然后经过一轮删除Outlier(例如不同视角该点距离的一致性),和一轮贪心加点(即填补当前视角的空白,同时不影响别的视角的可视化结果),得到纠正后的点云。
- 最后给基于这个固定的点云结构进行可微渲染染色。
- 最终重建质量和NeRF五五开,也就是低于 Point-NeRF。
SWITCH-NERF: LEARNING SCENE DECOMPOSITION WITH MIXTURE OF EXPERTS FOR LARGE-SCALE NEURAL RADIANCE FIELDS
- 大场景 NeRF,本文提出了一种新的NeRF组合方式(比如block-NeRF就是按照地理位置