2023-07-02 20:50:52 139 0 0

一些比较有意思的 cite 的 Score jacobian chaining 的工作。

3D-aware Image Generation using 2D Diffusion Models

见到的第二篇深度估计+RGBD补全的文章了。
视频效果在https://jeffreyxiang.github.io/ivid/，厉害的是不仅做了forward facing的场景，还做了360度的，整体效果不错。
虽然说，这类靠深度估计+RGBD补全的，得到的效果会比较像石头的密度，但是
warping 操作特地训练了生成模型

TextDeformer: Geometry Manipulation using Text Guidance

把SDS的思路用在了mesh deformation，不过本文引导使用的是 CLIP。

Zero-1-to-3: Zero-shot One Image to 3D Object

在合成数据上训练了一个去噪模型，具有良好的泛化能力，能够给出物体新视角高质量数据（虽然三维一致性一般）。

Sin3DM: Learning a Diffusion Model from a Single 3D Textured Shape

大概就是之前想做的单NeRF生成的改进版，基本思路一致——GAN换成Triplane Diffusion。
文章重新选择了更好的适用的数据集——普通数据难以应用、规则的材质化的效果才比较好。不再追求泛化能力，转而在局部场景上追求更好的质量。
相比之前的直接用3D版本SinGAN的效果：
几何提升有限，但材质生成提升较好。
New Idea: 结合 3D seam carving效果会怎么样呢？！3D seam carving规则化给出一个场景的不同尺寸，然后用于训练这个生成模型，从而能否提高模型对于场景应用的泛化能力？

ProlificDreamer: High-Fidelity and Diverse Text-to-3D Generation with Variational Score Distillation

最近的少有的真正改

查看

NeRF 不确定性估计相关

2023-05-09 16:07:49 285 0 0

ActiveNeRF: Learning where to See with Uncertainty Estimation

NeRF 重建+不确定性估计 + 主动学习
对于每个emittion 不再预测颜色，而是预测颜色的高斯分布均值和方差。
在球面上随机N个视角，然后对每个视角评分，把最高分的几个作为新视角加入主动学习。
后验分布可以这么算

Stochastic Neural Radiance Fields: Quantifying Uncertainty in Implicit 3D Representations

非常简单的原理，就是不同种子多训练几个 NeRF
效果竟然还可以，就是用的数据集shao'le'yi'xi

查看

全景图 Diffusion 生成

2023-05-09 16:07:43 119 0 0

Method1

来自 dreamingcomputers网站的做法：先准备一个存在的全景图，然后把全景图拆成很多个投射图，每个图象通过Image2Image做生成，然后拼接起来。

Text2Light: Zero-Shot Text-Driven HDR Panorama Generation

首先学一个codebook，然后 Eqn(5) 是对于向量加点噪音，Eqn(6) 这里是找到数据集内，最接近k个样本的code。 $p(s)$ 这一块是相当于自回归的序列预测。SPE 是空间位置编码。同时对于原图的一个patch，会有另一个codebook编码.

StyleLight: HDR Panorama Generation for Lighting Estimation and Editing

训练用的全景图GAN，然后LFOV到 LDR panoramas 用的 GAN inversion

查看

RGBD 生成/预测

2023-05-09 16:07:38 167 0 0

目前常规深度估计的SOTA 是 SwinV2

HiMODE: A Hybrid Monocular Omnidirectional Depth Estimation Model

室内全景图深度估计。似乎没有用到什么针对全景图的网络结构。
他说是ST3D 的 SOTA 那就是吧

其他

Generative Scene Synthesis via Incremental View Inpainting using RGBD Diffusion Models: 用的是 ScanNetV2 （1.4T RGBD数据）。
NYU-Depth V2: 室内RGBD数据，大约2.8G有语义标注，其余400GB只有深度。
KITTI Eigen Split: KITTI的子集，大约30GB的样子。
NeRDi: 用的是 Dense Prediction Transformer (DPT) model (一种密集预测的ViT，来自论文Vision Transformers for Dense Prediction)，在一个共有 1.4M 张图的混合数据集上训练的（包括DIW,ETH3D,Sintel,KITTI,NYU,TUM）。有开源模型存档点。
NeuralWindow Fully-connected CRFs for Monocular Depth Estimation: 上一篇的后续follow，没有混合数据集训练，但有NYUv2和KITTI的存档点。
BinsFormer: 同样是后续SOTA之一。
OmniFusion (CVPR2022) : 全景图单目深度估计。
Monocular-Depth-Estimation-Toolbox： github 开源单目估计工具箱，支持四种SOTA模型，7种训练方法，4个主流数据集。劳模！

DAG: Depth-Aware Guidance with Denoising Diffusion Probabilistic Models

CVPR2023 文章，代码暂时还没开源。
一个与深度密切相关的2D生成模型。
似乎质量还不错

查看

基于 Cross Attention 的 SD 控制

2023-04-23 19:33:17 1108 0 0

Prompt-to-Prompt Image Editing with Cross Attention Control

最早的一篇吧
文章发现attention map 控制了生成的语义，通过修改attention map 可以修改对应的生成结果。

eDiff-I: Text-to-Image Diffusion Models with an Ensemble of Expert Denoisers

在去噪过程中采用不同的模型。初始训练一个通用模型，然后后面再分阶段特化。文章认为去噪模型前段再根据文字生成图像结构，后段在细化提升图像的质量。
一个有趣的用法：prompt切换
文章提出了Paint-with-words，因为SD里面的CrossAttention是 Spatial CrossAttention 与空间位置独立，所以很方便对于attention做文章。示意图中每一行对应一个像素，每一列对应输入的一个词，只需要增加对应位置对应词的权重就可以。

Editing Implicit Assumptions in Text-to-Image Diffusion Models

这篇文章比较政治正确，就是某些物体生成会带有很强的bias。那么如何去纠正这些属性（真是讲了个很正确的故事）。
处理策略是：微调cross attention的text部分权重，然后使得不含有特定概念的更加接近含有特定概念的（类似于潜在的知识蒸馏）。

SVDiff: Compact Parameter Space for Diffusion Fine-Tuning

LoRA的竞品
只更新中间对角线部分
使用类似于Cut-mix来做数据增强，然后同时在Cross-Attention 层面让模型注意力增加到对应物体区域，这样还可以增加了物体之间对比的区分。
结合DDIM Invert，能有更细致的编辑效果。

Training-Free Layout Control with Cross-Attention Guidance

方法还是老一套，就是控制Cross-Attention，但是使用的是b

查看

NeRF 编辑2023进展

2023-04-22 19:12:46 163 0 0

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

三维场景生成
输入图像先通过一个Unet预测一个近似的深度+语义的分布[H,W,D+C]，即D编码了这个像素对应的体积分布，C编码了这个像素对应的语义。这里[H,W]是小于图像分辨率的。
这是这个组ECCV2020的工作，然后把这个映射到三维体素空间。
注意这里的渲染是先在有界体素渲染了一个语义、深度空间，然后再用Decoder完成图像化。所以实际上Decoder还完成了对于天空和空白部分的填补。
在这之后就是模仿LDM，但是分成三部分，一个全局向量、二维语义俯视图、三维场景体素。然后三个diffusion分别学习。
这样就获得了一个可以从噪音生成场景的模型。
通过控制全局向量和BEV同样实现了一些常见编辑，比如风格化、体素编辑。

总结

新的处理无界场景的思路——有限体素+NN decoder。
新的三维体积生成思路——先多视角RGBD+语义映射，再可微渲染微调改进。

free NeRF

使用对于position encoding 的正则化和对于体积不相交的正则化实现了更好的 few-shot。
既然来自于频率，那么早期频率别设置那么高就行。
很好的分析了原来few-shot artifacts 的来源
就是来自于本来应该在很远的地方，但是由于很近的话，也能满足条件，那么就容易学的很近。
处理方法很粗暴，直接惩罚接近相机的体素。
效果比regNeRF 更好，除了似乎可能多一些超参。

DITTO-NeRF: Diffusion-based Iterative Text To Omni-directional 3D Model

NeRF + SDS的工作，但更精细处理了生成过程，从粗糙到精细+从正面视角到更广范围的视角

GeNVS: Generative Novel View Synthesis with 3D-Aware Diffusion Models

效果很惊艳，但限制很大
就是训练了一个带条件的去噪模

查看

Adding Conditional Control to Text-to-Image Diffusion Models

2023-03-02 15:57:10 154 0 0

ControlNet

全新的架构思路，极好的效果和较低的训练开销。
任务目标，使用图片去控制diffusion的精准生成，效果极好，将SD的可控性提升了相当大的尺度。
最重要的几个trick:
1. zero convolution，初始权重和bias都是0的卷积，可以保证作为额外的参数初始的时候，不会破坏原有网络inference的结果，也就是初始化在一个合理的位置，以及梯度不为0是可以训练的。
1. trainable copy. 把原有网络复制一遍，然后配合 zero convolution 进行训练。
1. jointly optimization. 数据集非常大时，可以使用大规模训练，也就是先训练好额外的部分，然后把锁定的权重解锁来联合优化。

查看

NeRF 模态商用分析

2023-01-29 10:24:57 367 0 0

短期

短期主要方式为向Mesh兼容。主要体现形式为求解NeRF表征对应的最接近的Mesh表征，Mesh表征为基于三角网格与PBS材质的表征形式。Mesh转换分为两部分，第一部分为形状转换，第二部分为材质转换。
形状转换部分目前有基于 Marching Cube的直接转换和先拟合SDF再Marching Cube转换的方式。直接marching cube 转换的方式由于 NeRF 本身表面部分收敛结果较为不平整，所以通常结果可用用`灾难'形容。先拟合SDF再转Mesh的方式得到表面相对平滑可接受，目前主要代表为 NeuS 和 Instant-NSR。但使用marching cube 算法得到的Mesh 在应用中最常见的问题是表面太多了，相当于一个正常平面被强行切成很多网格小面，而且表面分布非常混乱。
材质转换部分目前研究工作较多，例如开源框架Pytorch3D 就非常简易的实现该功能。nvidia 的 NVDiffrast 也提供了相当便捷的Pytorch/Tensorflow 库和良好的硬件支持。
特别的 NVDiffrec 把这两者都完成了。值得一提的是 Tiny CUDANN 提供了非常广泛的隐式表征加速。

长期

长期方向应该是直接使用 NeRF 渲染。但主要问题是无法编辑、硬件支持性低、渲染开销高。
在快速渲染方面，mobile-nerf 已经实现了小模型手机端60fps的渲染，更多的硬件支持还比较缺乏。
在编辑方面只能说勉强实现了编辑，编辑便捷性和软件支持远不如Mesh，但编辑结果离真实结果还有差距。比如两个物体放在一起，很难把物体和物体之间的光效果体现出来（镜面反射、漫反射）。