2022-10-31 17:07:19 195 0 0

图像生成

本质上是给出一个数据集X，然后用一个生成模型去估计这个分布 $p(X)$ 。估计方法有 Autoregressive models, Normalizing flows, Energy-based models, GANs, Diffusion models.
2022年之前，主流也是质量最高的方法是用 GAN。GAN包含一个生成器，即一个 $N(0,I) \rightarrow p(X)$ 的模型，和一个判别器 $X \rightarrow a$ 。生成器从噪音中通过一遍神经网络推理得到所生成的图像。判别器输入一张真实/生成的图像，然后判别是否为真实图像。训练时，生成器和判别器是轮流迭代的对抗学习过程。期望情况下，最终生成器能够完美的从噪音生成正确的原始图像的分布，而判别器则刚好无法判别真伪。最常用的开源代码是Nvidia 公布的 StyleGANv2，github拥有超过1万个stars。
但是GAN拥有一个天生的缺点——基于对抗迭代的训练方法并不稳定。近两年来，Diffusion models 快速崛起，Diffusion models也是从噪音中生成一张图像，但方法不同。简单而言（因为其实有其他更复杂的分支方法），就是训练一个去噪的神经网络，通过对图像反复去噪，最终达到生成图像的效果。训练时，只需要正向给图像添加噪声，然后就获得了用于训练去噪网络的图像数据对。目前最火爆的开源代码是 latent-diffusion，拥有4.8K stars。

StyleGANv2

StyleGANv1

最早版本的 StyleGAN 研究如何实现可控风格化，引入了 mapping network 把一个高斯分布映射到控制信息 w的分布，然后再在生成过程中逐层加入控制信息w来实现可控生成。

StyleGANv2

第二版的 StyleGAN 针对性的修

查看

The recent rise of diffusion-based models

2022-10-13 16:44:02 230 0 0

摘选翻译自 The recent rise of diffusion-based models.

Introduction

此处跳过对 DALLE 的VAE模型的回顾。
此处跳过对 CLIP 的回顾。

All you need is diffusion

去噪模型是受热力学启发而来的，如下我们开始讲述去噪过程

Forward image diffusion

首先对于去噪的每一步有个噪音规划 $\{\beta_{t}\}^{T}_{t=1}$ , 那么前向扩散过程就是
$q (x_{t} ∣ x_{t - 1}) = N (\sqrt{1 - β_{t}} x_{t - 1}, β_{t} I) .$ $q\left(\mathbf{x}_{t} \mid \mathbf{x}_{t-1}\right)=\mathcal{N}\left(\sqrt{1-\beta_{t}} \mathbf{x}_{t-1}, \beta_{t} \mathbf{I}\right).$
随着噪音添加次数的增加，最终的 $q(\mathbf{x}_{T})$ 分布接近于高斯分布，这使得无论什么图像最终大家都会变成一个 $\epsilon \sim \mathcal{N}(0, \mathbf{I})$ 的分布。
并且可以直接推导出添加 $t$ 次噪音后的结果，而不需要逐步递推

查看

Novel view synthesis Overview

2022-09-13 18:25:39 476 0 0

基于传统方法的新视角合成

显式

Depth Synthesis and Local Warps for Plausible Image-based Navigation（13 年的文章）：先根据多视角图生成相机视角和点云，然后把场景投影到点云并建立super pixel，查询的时候找出最近的四个视角，然后使用加权的局部保持形状变换得到结果。
Scalable Inside-Out Image-Based Rendering（16年）：RGB-D数据建立基于面片的场景重建。
Photo tourism: exploring photo collections in 3D（06年）：应该是最早的了，每张图片映射到一个空间上的平面，然后新视角根据看得到的部分合成。
Modeling and rendering architecture from photographs: A hybrid geometry- and image-based approach(1996):从多张图片中重建基础几何结构，然后再在第二部进一步改进第一步得到的几何结构细节。
AtlasNet: A Papier-Mach Approach to Learning 3D Surface Generation(2018): 从point cloud/RGB-image 到表面点云, 从表面点云到mesh
Surface light fields for 3d photography(2000): 引入了表面Mesh上某个顶点在不同视角下颜色不同的概念（使用一个正多面球体刻画）。

离散体积

A theory of shape by space carving（2000）：从一系列环面视角完成场景重构以及 NovelView 合成的传统算法，考虑了可见性。
Soft 3d reconstruction for view synthesis（2017）：输入图片->带Voxeld 深度图->分析前后遮挡关系->计算了遮挡关系的深度图体积分布->合成。非NN算法。
Photorealistic scene reconstruction by voxel coloring（1

查看

NeRF Relightning 相关

2022-08-24 11:00:39 118 0 0

NeRF for Outdoor Scene Relighting(ECCV2022)

title

首个尝试解决室外复杂光照条件 relightning 的文章。
还顺带造了个数据集，通过色卡校准 Albedo 场景。
比别的方法高 1PSNR。

NeRV(CVPR2021)

已知光源，简单场景，添加初步光追逻辑。

NeRFactor

未知光源，简单场景，预测光源可见性。

NeRD (ICCV2021)

title
title

简单场景，复杂光照条件，两阶段训练。

查看

ICML2022 NeRF 相关

2022-07-17 20:59:53 213 0 0

NeuroFluid: Fluid Dynamics Grounding with Particle-Driven Neural Radiance Fields

NeRF + 物理，根据观察到的流体现象，推测对应的粒子系统运动，并且预测之后的运动。

查看

CVPR2022 NeRF 相关

2022-07-11 15:23:01 720 0 0

文章列表来源： https://github.com/amusi/CVPR2022-Papers-with-Code
以及：https://dellaert.github.io/NeRF22/

DensePose: Dense Human Pose Estimation In TheWild

使用如下一套预定义的带有 75+10 个可变参数的模型表示人体。
然后造一个带标注数据集： DensePose-CoCo。
训练一个网络预测每一块所属的身体部位和对应的UV图中位置。
再训练一个inPaint 网络把系数的预测值变得稠密

BANMo: Building Animatable 3D Neural Models from Many Casual Videos (CVPR 2022 Oral)

TLDR: 相对于 Nerfies，引入了 DensePose 创造了固定模型，以及使用了骨架系统约束运动变换。
从单目视频中重建自由移动的非刚性物体（例如猫）
（1）利用铰接骨架和混合皮肤的经典可变形形状模型；
（2）适合基于梯度优化的神经辐射场NeRF；
（3）在像素和铰接模型之间产生对应关系的embedding。
需要根据目标，通过人工标注大致的身体位置，从而 Finetune 一个 DensePose模型。
Results:

Mip-NeRF 360: Unbounded Anti-Aliased Neural Radiance Fields (CVPR 2022 Oral)

拓展 Mip-NeRF 到 Unbounded Scenes.
添加了Online Distillation, fine model 的预测 density 直接教 coarse model.

Point-NeRF: Point-based Neural Radiance Fields (CVPR 2022 Oral)

竟然拿了 Oral，那么之前提的凭借版改进优先级又高了一些。

NeRF in the Dark: High Dynamic Range View Synthesis from

查看

20220520 paper reading

2022-05-19 10:34:39 111 0 0

The relativistic discriminator: a key element missing from standard GAN

不再判断一个样本的绝对真假性，而是判断相对真假性。
经过一系列论证和推到，操作非常简单，也就是过sigmoid转概率前相减。
文章后面的实验也证实了这个简单的修改效果确实好
但是在github issue 中有人发现这样修改后，容易出现 model collaspe.

查看

20220505 PaperReading

2022-05-02 16:07:11 168 0 0

找了一些与如何训练GAN相关的文章

Spectral Normalization for Generative Adversarial Networks

这是对网络参数的归一化操作。同样用于限制 Discriminator的 Lipschitz 系数来提升训练稳定性。
卷积操作可以视为乘以一个矩阵，所以只要让每层网络的网络参数除以该层参数矩阵的谱范数( $W^TW$ 的最大特征值的平方根)即可满足Lipschitz<=1的约束。
就像限制参数模长一样，每次训练迭代的时候除一下就行。
实验证明了在 CIFAR10 上不同训练 configuration 下效果都不错。

Projected GANs Converge Faster

NIPS2021 得分 7775，竟然只拿到了一个 poster。
Novelty 一般般，效果看起来不错。
本文探究如何使用 ImageNet 预训练模型加速 GAN的训练。通常而言直接使用 ImageNet 预训练模型初始化 Discriminator 会导致 Generator 无法训练。
本文使用了 Feature pyramids 和映射到更高维的 Random Projection 来解决如上问题。
提取特征然后通过一个随机且固定的1x1 projection layer (CCM)。加一点卷积和上采样来增强全局information(CSM)。
实验结果
第i列的baseline是使用第 i 个scale的feature单独传给 discriminator。从结果来看，其实直接取预训练网络的前半部分的特征效果就不错（第二行），因为 Lipschitz 系数不大且有预训练。

Which Training Methods for GANs do actually Converge?

一篇理论性的文章，结果没有多么惊艳。但今后写某些文章的时候可能可以用于作为理论依据。

Optimizing the Latent Space of Generat

查看

20220428Paper Reading

2022-04-28 16:23:12 130 0 0

本次以点云和体素生成为主，目的是调研下到底多大的算力能支持多复杂的场景。

Learning Representations and Generative Models for 3D Point Clouds (2018)

重建部分为 AutoEncoder，生成部分结构为常见GAN或者在AE的hidden space 上做GAN or 高斯混合模型。输入输出维度为 2048*3。GAN的深度只有一两层MLP。使用的数据集大小大约为 1.4GB，57K 个样本，代码中GAN的训练使用了268K iteration。
重建质量
不同方法的结果（竖着的是不同的测评方法；B是直接GAN；CD是在AE的hidden space 做GAN，AE使用了不同的损失函数Earth Mover's Distance 和Chamfer Distance；E是WGAN；F是Gaussian Mixture Model）：

Improved Adversarial Systems for 3D Object Generation and Reconstruction (2018)

算法结构：
整体算法上来说，基本照搬WGAN-GP，额外的地方有：Generator 和 Discriminator 不是1：1迭代训练，而是 Discriminator 是Generator的5倍。Discriminator去掉了BN。但并没有Ablation Study证明有效性。
一共训练了456K iteration.

结果比较
训练用了400Epoch，3D部分尺寸 $32^3$ . 没有开源，所以不知道会训练多久，而且这是AE模型，不是GAN.

启发

生成做不好的话，如果AE重建做好了，可以做重

查看

20220414 Paper Reading

2022-04-14 15:46:03 217 0 0

PixelNerf: Neural Radiance Fields from One or Few Images

效果展示
在数据不充足时，传统nerf很难收敛得很好。
对于训练和渲染时的每一个点，找到在之前图像中出现的位置，然后使用一个预训练的2DCNN (ResNet34 on ImageNet)提取local特征。
这样一个编码的时候直接告诉了在图片中的样子确实能显著提升fewshot的收敛效果，但我比较担心在复杂遮挡的情况下的效果。
这个例子可以看出，在多个视图的情况下，nerf效果反而可能比pixelNerf更好，而且pixelNerf的复杂度与视图数量相关。

GRF: Learning a General Radiance Field for 3D Representation and Rendering

上文的同一个组后续工作, ICCV 2021。
这次不再直接拼接到Nerf的输入上了。先过一个流程得到对于一个3D点的Feature。这个 $x_p,y_p,z_p$ 是询问点的坐标（其实我觉得该用相机与这个点的位置差，以及这里特征融合有使用 Transformer 的空间）。
后面再加view direction(yysy, 这图画的真丑).
除了常规实验外，做了个有意思的实验。把另一个场景的输入套用进来，有种直接输入多视角图，直接输出合成视角的感觉了。（除了这个就真没别的什么亮点了）
可惜只做了一些非常 toy 的数据集。