2022-10-31 17:07:19    195    0    0

图像生成

  • 本质上是给出一个数据集X,然后用一个生成模型去估计这个分布 p(X)。估计方法有 Autoregressive models, Normalizing flows, Energy-based models, GANs, Diffusion models.
  • 2022年之前,主流也是质量最高的方法是用 GAN。GAN包含一个生成器,即一个 N(0,I)p(X) 的模型,和一个判别器 Xa。生成器从噪音中通过一遍神经网络推理得到所生成的图像。判别器输入一张真实/生成的图像,然后判别是否为真实图像。训练时,生成器和判别器是轮流迭代的对抗学习过程。期望情况下,最终生成器能够完美的从噪音生成正确的原始图像的分布,而判别器则刚好无法判别真伪。最常用的开源代码是Nvidia 公布的 StyleGANv2,github拥有超过1万个stars。
  • title
  • 但是GAN拥有一个天生的缺点——基于对抗迭代的训练方法并不稳定。近两年来,Diffusion models 快速崛起,Diffusion models也是从噪音中生成一张图像,但方法不同。简单而言(因为其实有其他更复杂的分支方法),就是训练一个去噪的神经网络,通过对图像反复去噪,最终达到生成图像的效果。训练时,只需要正向给图像添加噪声,然后就获得了用于训练去噪网络的图像数据对。目前最火爆的开源代码是 latent-diffusion,拥有4.8K stars。
  • title
  • *

StyleGANv2

  • title
  • title
  • title

StyleGANv1

  • 最早版本的 StyleGAN 研究如何实现可控风格化,引入了 mapping network 把一个高斯分布映射到控制信息 w的分布,然后再在生成过程中逐层加入控制信息w来实现可控生成。
  • title

StyleGANv2

  • 第二版的 StyleGAN 针对性的修
2022-10-13 16:44:02    230    0    0

Introduction

  • title
  • 此处跳过对 DALLE 的VAE模型的回顾。
  • 此处跳过对 CLIP 的回顾。

All you need is diffusion

  • title
  • 去噪模型是受热力学启发而来的,如下我们开始讲述去噪过程

Forward image diffusion

  • 首先对于去噪的每一步有个噪音规划 {βt}t=1T, 那么前向扩散过程就是
    q(xtxt1)=N(1βtxt1,βtI).
  • 随着噪音添加次数的增加,最终的 q(xT) 分布接近于高斯分布,这使得无论什么图像最终大家都会变成一个 ϵN(0,I)的分布。
  • 并且可以直接推导出添加 t 次噪音后的结果,而不需要逐步递推
2022-09-13 18:25:39    476    0    0

基于传统方法的新视角合成

显式

  • Depth Synthesis and Local Warps for Plausible Image-based Navigation(13 年的文章):先根据多视角图生成相机视角和点云,然后把场景投影到点云并建立super pixel,查询的时候找出最近的四个视角,然后使用加权的局部保持形状变换得到结果。
  • Scalable Inside-Out Image-Based Rendering(16年):RGB-D数据建立基于面片的场景重建。
  • Photo tourism: exploring photo collections in 3D(06年):应该是最早的了,每张图片映射到一个空间上的平面,然后新视角根据看得到的部分合成。
  • Modeling and rendering architecture from photographs: A hybrid geometry- and image-based approach(1996):从多张图片中重建基础几何结构,然后再在第二部进一步改进第一步得到的几何结构细节。
  • AtlasNet: A Papier-Mach Approach to Learning 3D Surface Generation(2018): 从point cloud/RGB-image 到表面点云, 从表面点云到mesh
  • Surface light fields for 3d photography(2000): 引入了表面Mesh上某个顶点在不同视角下颜色不同的概念(使用一个正多面球体刻画)。

离散体积

  • A theory of shape by space carving(2000):从一系列环面视角完成场景重构以及 NovelView 合成的传统算法,考虑了可见性。
  • Soft 3d reconstruction for view synthesis(2017):输入图片->带Voxeld 深度图->分析前后遮挡关系->计算了遮挡关系的深度图体积分布->合成。非NN算法。
  • Photorealistic scene reconstruction by voxel coloring(1
2022-08-24 11:00:39    118    0    0

NeRF for Outdoor Scene Relighting(ECCV2022)

title

  • 首个尝试解决室外复杂光照条件 relightning 的文章。
  • 还顺带造了个数据集,通过色卡校准 Albedo 场景。
  • title
  • 比别的方法高 1PSNR。

NeRV(CVPR2021)

  • title
  • title

  • 已知光源,简单场景,添加初步光追逻辑。

NeRFactor

  • title

  • 未知光源,简单场景,预测光源可见性。

NeRD (ICCV2021)

title
title

  • 简单场景,复杂光照条件,两阶段训练。
2022-07-17 20:59:53    213    0    0

NeuroFluid: Fluid Dynamics Grounding with Particle-Driven Neural Radiance Fields

  • NeRF + 物理,根据观察到的流体现象,推测对应的粒子系统运动,并且预测之后的运动。
  • title
  • title
2022-07-11 15:23:01    720    0    0

DensePose: Dense Human Pose Estimation In TheWild

  • 使用如下一套预定义的带有 75+10 个可变参数的模型表示人体。
  • title
  • 然后造一个带标注数据集: DensePose-CoCo。
  • 训练一个网络预测每一块所属的身体部位和对应的UV图中位置。
  • title
  • 再训练一个inPaint 网络把系数的预测值变得稠密
  • title

BANMo: Building Animatable 3D Neural Models from Many Casual Videos (CVPR 2022 Oral)

  • TLDR: 相对于 Nerfies,引入了 DensePose 创造了固定模型,以及使用了骨架系统约束运动变换。
  • 从单目视频中重建自由移动的非刚性物体(例如猫)
  • title
  • (1)利用铰接骨架和混合皮肤的经典可变形形状模型;
  • (2)适合基于梯度优化的神经辐射场NeRF;
  • (3)在像素和铰接模型之间产生对应关系的embedding。
  • title
  • 需要根据目标,通过人工标注大致的身体位置,从而 Finetune 一个 DensePose模型。
  • title
  • title
  • title
  • Results:
  • title
  • title

Mip-NeRF 360: Unbounded Anti-Aliased Neural Radiance Fields (CVPR 2022 Oral)

  • 拓展 Mip-NeRF 到 Unbounded Scenes.
  • title
  • title
  • 添加了Online Distillation, fine model 的预测 density 直接教 coarse model.
  • title
  • title

Point-NeRF: Point-based Neural Radiance Fields (CVPR 2022 Oral)

  • 竟然拿了 Oral,那么之前提的凭借版改进优先级又高了一些。

NeRF in the Dark: High Dynamic Range View Synthesis from

2022-05-19 10:34:39    111    0    0

The relativistic discriminator: a key element missing from standard GAN

  • 不再判断一个样本的绝对真假性,而是判断相对真假性。
  • 经过一系列论证和推到,操作非常简单,也就是过sigmoid转概率前相减。
  • title
  • 文章后面的实验也证实了这个简单的修改效果确实好
  • 但是在github issue 中有人发现这样修改后,容易出现 model collaspe.
2022-05-02 16:07:11    168    0    0
  • 找了一些与如何训练GAN相关的文章

Spectral Normalization for Generative Adversarial Networks

  • 这是对网络参数的归一化操作。同样用于限制 Discriminator的 Lipschitz 系数来提升训练稳定性。
  • 卷积操作可以视为乘以一个矩阵,所以只要让每层网络的网络参数除以该层参数矩阵的谱范数(WTW的最大特征值的平方根)即可满足Lipschitz<=1的约束。
  • 就像限制参数模长一样,每次训练迭代的时候除一下就行。
  • title
  • title
  • title
  • 实验证明了在 CIFAR10 上不同训练 configuration 下效果都不错。
  • title

Projected GANs Converge Faster

  • NIPS2021 得分 7775,竟然只拿到了一个 poster。
  • Novelty 一般般,效果看起来不错。
  • title
  • 本文探究如何使用 ImageNet 预训练模型加速 GAN的训练。通常而言直接使用 ImageNet 预训练模型初始化 Discriminator 会导致 Generator 无法训练。
  • 本文使用了 Feature pyramids 和映射到更高维的 Random Projection 来解决如上问题。
  • 提取特征然后通过一个随机且固定的1x1 projection layer (CCM)。加一点卷积和上采样来增强全局information(CSM)。
  • titletitle
  • 实验结果
  • title
  • 第i列的baseline是使用第 i 个scale的feature单独传给 discriminator。从结果来看,其实直接取预训练网络的前半部分的特征效果就不错(第二行),因为 Lipschitz 系数不大且有预训练。
  • title

Which Training Methods for GANs do actually Converge?

  • 一篇理论性的文章,结果没有多么惊艳。但今后写某些文章的时候可能可以用于作为理论依据。
  • title

Optimizing the Latent Space of Generat

2022-04-28 16:23:12    130    0    0
  • 本次以点云和体素生成为主,目的是调研下到底多大的算力能支持多复杂的场景。

Learning Representations and Generative Models for 3D Point Clouds (2018)

  • 重建部分为 AutoEncoder,生成部分结构为常见GAN或者在AE的hidden space 上做GAN or 高斯混合模型。输入输出维度为 2048*3。GAN的深度只有一两层MLP。使用的数据集大小大约为 1.4GB,57K 个样本,代码中GAN的训练使用了268K iteration。
  • 重建质量
  • title
  • 不同方法的结果(竖着的是不同的测评方法;B是直接GAN;CD是在AE的hidden space 做GAN,AE使用了不同的损失函数Earth Mover's Distance 和Chamfer Distance;E是WGAN;F是Gaussian Mixture Model):
  • title

Improved Adversarial Systems for 3D Object Generation and Reconstruction (2018)

  • 算法结构:
  • title
  • 整体算法上来说,基本照搬WGAN-GP,额外的地方有:Generator 和 Discriminator 不是1:1迭代训练,而是 Discriminator 是Generator的5倍。Discriminator去掉了BN。但并没有Ablation Study证明有效性。
  • title
  • 一共训练了456K iteration.

3DMGNet: 3D Model Generation Network Based on Multi-Modal Data Constraints and Multi-Level Feature Fusion (2020)

  • title
  • title
  • 结果比较
  • title
  • 训练用了400Epoch,3D部分尺寸 323. 没有开源,所以不知道会训练多久,而且这是AE模型,不是GAN.

启发

  • 生成做不好的话,如果AE重建做好了,可以做重
2022-04-14 15:46:03    217    0    0

PixelNerf: Neural Radiance Fields from One or Few Images

  • 效果展示
  • 在数据不充足时,传统nerf很难收敛得很好。
  • 对于训练和渲染时的每一个点,找到在之前图像中出现的位置,然后使用一个预训练的2DCNN (ResNet34 on ImageNet)提取local特征。
  • title
  • title
  • 这样一个编码的时候直接告诉了在图片中的样子确实能显著提升fewshot的收敛效果,但我比较担心在复杂遮挡的情况下的效果。
  • title
  • 这个例子可以看出,在多个视图的情况下,nerf效果反而可能比pixelNerf更好,而且pixelNerf的复杂度与视图数量相关。

GRF: Learning a General Radiance Field for 3D Representation and Rendering

  • 上文的同一个组后续工作, ICCV 2021。
  • 这次不再直接拼接到Nerf的输入上了。先过一个流程得到对于一个3D点的Feature。这个xp,yp,zp 是询问点的坐标(其实我觉得该用相机与这个点的位置差,以及这里特征融合有使用 Transformer 的空间)。
  • title
  • 后面再加view direction(yysy, 这图画的真丑).
  • title
  • 除了常规实验外,做了个有意思的实验。把另一个场景的输入套用进来,有种直接输入多视角图,直接输出合成视角的感觉了。(除了这个就真没别的什么亮点了)
  • title
  • 可惜只做了一些非常 toy 的数据集。
  • title

Depth-supervised NeRF: Fewer Views and Faster Training for Free

  • title
  • 在数据量少的时候,Nerf会出现严重的 OverFitting 的情况。但是增加深度数据可以减轻这个情况。
  • title
  • 深度的计算方法和颜色一样,就只是把 color 替换为了 distance from cam.
  • title
  • 训练时额外加一个深度L2信息
  • title
  • 实验上他们分析了生成效果,深度估计误差,以及把他们方法加到 Pi