2022-07-11 15:23:01 606 0 0

文章列表来源： https://github.com/amusi/CVPR2022-Papers-with-Code
以及：https://dellaert.github.io/NeRF22/

DensePose: Dense Human Pose Estimation In TheWild

使用如下一套预定义的带有 75+10 个可变参数的模型表示人体。
然后造一个带标注数据集： DensePose-CoCo。
训练一个网络预测每一块所属的身体部位和对应的UV图中位置。
再训练一个inPaint 网络把系数的预测值变得稠密

BANMo: Building Animatable 3D Neural Models from Many Casual Videos (CVPR 2022 Oral)

TLDR: 相对于 Nerfies，引入了 DensePose 创造了固定模型，以及使用了骨架系统约束运动变换。
从单目视频中重建自由移动的非刚性物体（例如猫）
（1）利用铰接骨架和混合皮肤的经典可变形形状模型；
（2）适合基于梯度优化的神经辐射场NeRF；
（3）在像素和铰接模型之间产生对应关系的embedding。
需要根据目标，通过人工标注大致的身体位置，从而 Finetune 一个 DensePose模型。
Results:

Mip-NeRF 360: Unbounded Anti-Aliased Neural Radiance Fields (CVPR 2022 Oral)

拓展 Mip-NeRF 到 Unbounded Scenes.
添加了Online Distillation, fine model 的预测 density 直接教 coarse model.

Point-NeRF: Point-based Neural Radiance Fields (CVPR 2022 Oral)

竟然拿了 Oral，那么之前提的凭借版改进优先级又高了一些。

NeRF in the Dark: High Dynamic Range View Synthesis from

查看

20220520 paper reading

2022-05-19 10:34:39 54 0 0

The relativistic discriminator: a key element missing from standard GAN

不再判断一个样本的绝对真假性，而是判断相对真假性。
经过一系列论证和推到，操作非常简单，也就是过sigmoid转概率前相减。
文章后面的实验也证实了这个简单的修改效果确实好
但是在github issue 中有人发现这样修改后，容易出现 model collaspe.

查看

20220505 PaperReading

2022-05-02 16:07:11 86 0 0

找了一些与如何训练GAN相关的文章

Spectral Normalization for Generative Adversarial Networks

这是对网络参数的归一化操作。同样用于限制 Discriminator的 Lipschitz 系数来提升训练稳定性。
卷积操作可以视为乘以一个矩阵，所以只要让每层网络的网络参数除以该层参数矩阵的谱范数( $W^TW$ 的最大特征值的平方根)即可满足Lipschitz<=1的约束。
就像限制参数模长一样，每次训练迭代的时候除一下就行。
实验证明了在 CIFAR10 上不同训练 configuration 下效果都不错。

Projected GANs Converge Faster

NIPS2021 得分 7775，竟然只拿到了一个 poster。
Novelty 一般般，效果看起来不错。
本文探究如何使用 ImageNet 预训练模型加速 GAN的训练。通常而言直接使用 ImageNet 预训练模型初始化 Discriminator 会导致 Generator 无法训练。
本文使用了 Feature pyramids 和映射到更高维的 Random Projection 来解决如上问题。
提取特征然后通过一个随机且固定的1x1 projection layer (CCM)。加一点卷积和上采样来增强全局information(CSM)。
实验结果
第i列的baseline是使用第 i 个scale的feature单独传给 discriminator。从结果来看，其实直接取预训练网络的前半部分的特征效果就不错（第二行），因为 Lipschitz 系数不大且有预训练。

Which Training Methods for GANs do actually Converge?

一篇理论性的文章，结果没有多么惊艳。但今后写某些文章的时候可能可以用于作为理论依据。

Optimizing the Latent Space of Generat

查看

20220428Paper Reading

2022-04-28 16:23:12 83 0 0

本次以点云和体素生成为主，目的是调研下到底多大的算力能支持多复杂的场景。

Learning Representations and Generative Models for 3D Point Clouds (2018)

重建部分为 AutoEncoder，生成部分结构为常见GAN或者在AE的hidden space 上做GAN or 高斯混合模型。输入输出维度为 2048*3。GAN的深度只有一两层MLP。使用的数据集大小大约为 1.4GB，57K 个样本，代码中GAN的训练使用了268K iteration。
重建质量
不同方法的结果（竖着的是不同的测评方法；B是直接GAN；CD是在AE的hidden space 做GAN，AE使用了不同的损失函数Earth Mover's Distance 和Chamfer Distance；E是WGAN；F是Gaussian Mixture Model）：

Improved Adversarial Systems for 3D Object Generation and Reconstruction (2018)

算法结构：
整体算法上来说，基本照搬WGAN-GP，额外的地方有：Generator 和 Discriminator 不是1：1迭代训练，而是 Discriminator 是Generator的5倍。Discriminator去掉了BN。但并没有Ablation Study证明有效性。
一共训练了456K iteration.

结果比较
训练用了400Epoch，3D部分尺寸 $32^3$ . 没有开源，所以不知道会训练多久，而且这是AE模型，不是GAN.

启发

生成做不好的话，如果AE重建做好了，可以做重

查看

20220414 Paper Reading

2022-04-14 15:46:03 127 0 0

PixelNerf: Neural Radiance Fields from One or Few Images

效果展示
在数据不充足时，传统nerf很难收敛得很好。
对于训练和渲染时的每一个点，找到在之前图像中出现的位置，然后使用一个预训练的2DCNN (ResNet34 on ImageNet)提取local特征。
这样一个编码的时候直接告诉了在图片中的样子确实能显著提升fewshot的收敛效果，但我比较担心在复杂遮挡的情况下的效果。
这个例子可以看出，在多个视图的情况下，nerf效果反而可能比pixelNerf更好，而且pixelNerf的复杂度与视图数量相关。

GRF: Learning a General Radiance Field for 3D Representation and Rendering

上文的同一个组后续工作, ICCV 2021。
这次不再直接拼接到Nerf的输入上了。先过一个流程得到对于一个3D点的Feature。这个 $x_p,y_p,z_p$ 是询问点的坐标（其实我觉得该用相机与这个点的位置差，以及这里特征融合有使用 Transformer 的空间）。
后面再加view direction(yysy, 这图画的真丑).
除了常规实验外，做了个有意思的实验。把另一个场景的输入套用进来，有种直接输入多视角图，直接输出合成视角的感觉了。（除了这个就真没别的什么亮点了）
可惜只做了一些非常 toy 的数据集。

Depth-supervised NeRF: Fewer Views and Faster Training for Free

在数据量少的时候，Nerf会出现严重的 OverFitting 的情况。但是增加深度数据可以减轻这个情况。
深度的计算方法和颜色一样，就只是把 color 替换为了 distance from cam.
训练时额外加一个深度L2信息
实验上他们分析了生成效果，深度估计误差，以及把他们方法加到 Pi

查看

20220325 Paper Reading

2022-03-18 18:06:46 99 0 0

InLoc: Indoor Visual Localization with Dense Matching and View Synthesis （2018）

本文提出了一个先针对建筑建立3D地图，随后使用相机估计当前位姿的方案.
本文的创新点：
之前的方案无法在室内场景中提取足够的特征（如墙面）。本文采用 multi-scale dense CNN features （CNN提前预训练好，提取多层网络特征。）用于图片描述和特征匹配。
本文通过将问询图像（query image）与一个通过3D模型合成的虚拟视角比较，来验证新视角是否解析正确。
具体流程： NetVLAD方法（一个使用 CNN 和聚类来进行图像检索的方法）查询图片和数据库图片，选取最高的100个，使用 multi-scale dense CNN features 来对这100进行重新排序，选出top 10 来通过合成视野进行验证。

From coarse to fine: Robust hierarchical localization at large scale （2019）

本文的目标是控制算力消耗的同时最大化定位鲁棒性
流程也是对比输入与数据库图像得到初步的结果（Prior retrieval），再通过 covisibility clustering 来把依照3D结构中可以被prior frames共同观察到的地点提取出来。对于每个地点，匹配从输入图像中提取的2D关键点和地点中所包含的3D点，结合一些现有方法推断出6-DoF姿态即完成定位。
训练的时候加了点多任务蒸馏

Unifying deep local and global features for image search （2020）

提出了一个模型同时完成全局特征和局部特征的提取。
全局特征即把整张图用一个向量表示,局部特征则是提取纹理特征。
基于分类方法训练的模型得到的一般都是全局特征，而之前提取局部特征则是使用模型的某一层特征图通过处理得到。
全局head使用了 GemPooling(即每个数的p次方和再开p次根，p可学习，本文p固定为3) 而非 AdaptiveP

查看

20220317 Paper Reading

2022-03-17 15:24:19 82 0 0

ShaRF: Shape-conditioned Radiance Fields from a Single View

同时训练shape Network 和 Appearance network。训练时候需要全部的数据（ Chairs数据集包含 6591 个椅子， cars 包含 3514 个小汽车）以及全部数据的体素分布网格（ground Truth）。对于 shape code 则是和网络联合优化，测试时使用到了测试数据之前算出来的 shape code。 Appearance code 同理。
由于是 supervised generation，而且需要 rendering ，看起来并不适合大场景生成。

CodeNeRF : Disentangled Neural Radiance Fields for Object Categories

与上一个类似，把shape和color分离，但是是在MLP层实现。同样 Zs和Zt是和网络在一起优化的。

title

StyleNeRF: A Style-based 3D-Aware Generator for High-resolution Image Synthesis

rendering 部分只渲染低清特征图，然后再逐步超分得到高清RGB。为了解决超分步骤中的3D不一致性，修改了 upsampler 并增加了新的正则化loss。
正则化loss：在超分结果中采样一些像素，并于真正的nerf结果相对比。
上采样修改：
Results:
Novelty 并不多，但关注了重要的问题，并且看起来效果不错。

NeRF in the Dark: High Dynamic Range View Synthesis from Noisy Raw Images

直接使用 RAW数据，并且发现在数据量足够的适合（25-200）张图， NeRF对于噪音非常鲁棒。可以在低亮度条件下得到较好的图像。并且根据NeRF特性，还能调整焦距HDR等参数。

查看

CityNeRF: Building NeRF at City Scale

2022-03-10 16:37:40 607 0 0

大尺寸城市NeRF，做到了不同尺度的nerf的统一。
可以考虑作为我们工作的数据集，但是还没有公开代码和数据集。

Main Idea

title

同样采用progressive 的训练方式，逐渐训练更大尺寸的NeRF。每个尺度的结果等于这个尺度加上之前的结果，算是一种相对新的大尺寸nerf思路。

title

Comments

近距离场景PSNR也差不多只有 21~22，说明我们 rural 场景重建也差不多这么多。可能与场景比较复杂，航拍精度有限有关。
以及这个结构估计训练和inference 都非常耗时，但是这个结构应该可以与地图加载相结合进行动态的模块加载。

查看

Point-NeRF: Point-based Neural Radiance Fields

2022-03-03 10:17:05 318 0 0

title

结合了点云和nerf，就像我们是约等于 Voxel+NeRF 一样，这个方案生成的是离散的特征点。而之前所有基于网格的训练方案得到的是规整的网格点。
但是就训练速度而言，比 NeRF 快，比基于网格的一系列方法慢。
作用上除了加速训练，作者还提出了 point pruning 和 growing 的迭代操作，即不停的在表面处空隙添加point，并删除认为在空的地方的point。这个后处理操作可以增加渲染得到的准确度，以及可以对于一个点云输入jing'x