2022-09-13 18:25:39    26    0    0

基于传统方法的新视角合成

显式

  • Depth Synthesis and Local Warps for Plausible Image-based Navigation(13 年的文章):先根据多视角图生成相机视角和点云,然后把场景投影到点云并建立super pixel,查询的时候找出最近的四个视角,然后使用加权的局部保持形状变换得到结果。
  • Scalable Inside-Out Image-Based Rendering(16年):RGB-D数据建立基于面片的场景重建。
  • Photo tourism: exploring photo collections in 3D(06年):应该是最早的了,每张图片映射到一个空间上的平面,然后新视角根据看得到的部分合成。
  • Modeling and rendering architecture from photographs: A hybrid geometry- and image-based approach(1996):从多张图片中重建基础几何结构,然后再在第二部进一步改进第一步得到的几何结构细节。
  • AtlasNet: A Papier-Mach Approach to Learning 3D Surface Generation(2018): 从point cloud/RGB-image 到表面点云, 从表面点云到mesh
  • Surface light fields for 3d photography(2000): 引入了表面Mesh上某个顶点在不同视角下颜色不同的概念(使用一个正多面球体刻画)。

离散体积

  • A theory of shape by space carving(2000):从一系列环面视角完成场景重构以及 NovelView 合成的传统算法,考虑了可见性。
  • Soft 3d reconstruction for view synthesis(2017):输入图片->带Voxeld 深度图->分析前后遮挡关系->计算了遮挡关系的深度图体积分布->合成。非NN算法。
  • Photorealistic scene reconstruction by voxel coloring(1
2022-08-24 11:00:39    15    0    0

NeRF for Outdoor Scene Relighting(ECCV2022)

title

  • 首个尝试解决室外复杂光照条件 relightning 的文章。
  • 还顺带造了个数据集,通过色卡校准 Albedo 场景。
  • title
  • 比别的方法高 1PSNR。

NeRV(CVPR2021)

  • title
  • title

  • 已知光源,简单场景,添加初步光追逻辑。

NeRFactor

  • title

  • 未知光源,简单场景,预测光源可见性。

NeRD (ICCV2021)

title
title

  • 简单场景,复杂光照条件,两阶段训练。
2022-07-17 20:59:53    24    0    0

NeuroFluid: Fluid Dynamics Grounding with Particle-Driven Neural Radiance Fields

  • NeRF + 物理,根据观察到的流体现象,推测对应的粒子系统运动,并且预测之后的运动。
  • title
  • title
2022-07-11 15:23:01    96    0    0

DensePose: Dense Human Pose Estimation In TheWild

  • 使用如下一套预定义的带有 75+10 个可变参数的模型表示人体。
  • title
  • 然后造一个带标注数据集: DensePose-CoCo。
  • 训练一个网络预测每一块所属的身体部位和对应的UV图中位置。
  • title
  • 再训练一个inPaint 网络把系数的预测值变得稠密
  • title

BANMo: Building Animatable 3D Neural Models from Many Casual Videos (CVPR 2022 Oral)

  • TLDR: 相对于 Nerfies,引入了 DensePose 创造了固定模型,以及使用了骨架系统约束运动变换。
  • 从单目视频中重建自由移动的非刚性物体(例如猫)
  • title
  • (1)利用铰接骨架和混合皮肤的经典可变形形状模型;
  • (2)适合基于梯度优化的神经辐射场NeRF;
  • (3)在像素和铰接模型之间产生对应关系的embedding。
  • title
  • 需要根据目标,通过人工标注大致的身体位置,从而 Finetune 一个 DensePose模型。
  • title
  • title
  • title
  • Results:
  • title
  • title

Mip-NeRF 360: Unbounded Anti-Aliased Neural Radiance Fields (CVPR 2022 Oral)

  • 拓展 Mip-NeRF 到 Unbounded Scenes.
  • title
  • title
  • 添加了Online Distillation, fine model 的预测 density 直接教 coarse model.
  • title
  • title

Point-NeRF: Point-based Neural Radiance Fields (CVPR 2022 Oral)

  • 竟然拿了 Oral,那么之前提的凭借版改进优先级又高了一些。

NeRF in the Dark: High Dynamic Range View Synthesis from

2022-05-19 10:34:39    26    0    0

The relativistic discriminator: a key element missing from standard GAN

  • 不再判断一个样本的绝对真假性,而是判断相对真假性。
  • 经过一系列论证和推到,操作非常简单,也就是过sigmoid转概率前相减。
  • title
  • 文章后面的实验也证实了这个简单的修改效果确实好
  • 但是在github issue 中有人发现这样修改后,容易出现 model collaspe.
2022-05-02 16:07:11    34    0    0
  • 找了一些与如何训练GAN相关的文章

Spectral Normalization for Generative Adversarial Networks

  • 这是对网络参数的归一化操作。同样用于限制 Discriminator的 Lipschitz 系数来提升训练稳定性。
  • 卷积操作可以视为乘以一个矩阵,所以只要让每层网络的网络参数除以该层参数矩阵的谱范数(WTW的最大特征值的平方根)即可满足Lipschitz<=1的约束。
  • 就像限制参数模长一样,每次训练迭代的时候除一下就行。
  • title
  • title
  • title
  • 实验证明了在 CIFAR10 上不同训练 configuration 下效果都不错。
  • title

Projected GANs Converge Faster

  • NIPS2021 得分 7775,竟然只拿到了一个 poster。
  • Novelty 一般般,效果看起来不错。
  • title
  • 本文探究如何使用 ImageNet 预训练模型加速 GAN的训练。通常而言直接使用 ImageNet 预训练模型初始化 Discriminator 会导致 Generator 无法训练。
  • 本文使用了 Feature pyramids 和映射到更高维的 Random Projection 来解决如上问题。
  • 提取特征然后通过一个随机且固定的1x1 projection layer (CCM)。加一点卷积和上采样来增强全局information(CSM)。
  • titletitle
  • 实验结果
  • title
  • 第i列的baseline是使用第 i 个scale的feature单独传给 discriminator。从结果来看,其实直接取预训练网络的前半部分的特征效果就不错(第二行),因为 Lipschitz 系数不大且有预训练。
  • title

Which Training Methods for GANs do actually Converge?

  • 一篇理论性的文章,结果没有多么惊艳。但今后写某些文章的时候可能可以用于作为理论依据。
  • title

Optimizing the Latent Space of Generat

2022-04-28 16:23:12    36    0    0
  • 本次以点云和体素生成为主,目的是调研下到底多大的算力能支持多复杂的场景。

Learning Representations and Generative Models for 3D Point Clouds (2018)

  • 重建部分为 AutoEncoder,生成部分结构为常见GAN或者在AE的hidden space 上做GAN or 高斯混合模型。输入输出维度为 2048*3。GAN的深度只有一两层MLP。使用的数据集大小大约为 1.4GB,57K 个样本,代码中GAN的训练使用了268K iteration。
  • 重建质量
  • title
  • 不同方法的结果(竖着的是不同的测评方法;B是直接GAN;CD是在AE的hidden space 做GAN,AE使用了不同的损失函数Earth Mover's Distance 和Chamfer Distance;E是WGAN;F是Gaussian Mixture Model):
  • title

Improved Adversarial Systems for 3D Object Generation and Reconstruction (2018)

  • 算法结构:
  • title
  • 整体算法上来说,基本照搬WGAN-GP,额外的地方有:Generator 和 Discriminator 不是1:1迭代训练,而是 Discriminator 是Generator的5倍。Discriminator去掉了BN。但并没有Ablation Study证明有效性。
  • title
  • 一共训练了456K iteration.

3DMGNet: 3D Model Generation Network Based on Multi-Modal Data Constraints and Multi-Level Feature Fusion (2020)

  • title
  • title
  • 结果比较
  • title
  • 训练用了400Epoch,3D部分尺寸 323. 没有开源,所以不知道会训练多久,而且这是AE模型,不是GAN.

启发

  • 生成做不好的话,如果AE重建做好了,可以做重
2022-04-14 15:46:03    36    0    0

PixelNerf: Neural Radiance Fields from One or Few Images

  • 效果展示
  • 在数据不充足时,传统nerf很难收敛得很好。
  • 对于训练和渲染时的每一个点,找到在之前图像中出现的位置,然后使用一个预训练的2DCNN (ResNet34 on ImageNet)提取local特征。
  • title
  • title
  • 这样一个编码的时候直接告诉了在图片中的样子确实能显著提升fewshot的收敛效果,但我比较担心在复杂遮挡的情况下的效果。
  • title
  • 这个例子可以看出,在多个视图的情况下,nerf效果反而可能比pixelNerf更好,而且pixelNerf的复杂度与视图数量相关。

GRF: Learning a General Radiance Field for 3D Representation and Rendering

  • 上文的同一个组后续工作, ICCV 2021。
  • 这次不再直接拼接到Nerf的输入上了。先过一个流程得到对于一个3D点的Feature。这个xp,yp,zp 是询问点的坐标(其实我觉得该用相机与这个点的位置差,以及这里特征融合有使用 Transformer 的空间)。
  • title
  • 后面再加view direction(yysy, 这图画的真丑).
  • title
  • 除了常规实验外,做了个有意思的实验。把另一个场景的输入套用进来,有种直接输入多视角图,直接输出合成视角的感觉了。(除了这个就真没别的什么亮点了)
  • title
  • 可惜只做了一些非常 toy 的数据集。
  • title

Depth-supervised NeRF: Fewer Views and Faster Training for Free

  • title
  • 在数据量少的时候,Nerf会出现严重的 OverFitting 的情况。但是增加深度数据可以减轻这个情况。
  • title
  • 深度的计算方法和颜色一样,就只是把 color 替换为了 distance from cam.
  • title
  • 训练时额外加一个深度L2信息
  • title
  • 实验上他们分析了生成效果,深度估计误差,以及把他们方法加到 Pi
2022-03-18 18:06:46    42    0    0

InLoc: Indoor Visual Localization with Dense Matching and View Synthesis (2018)

  • 本文提出了一个先针对建筑建立3D地图,随后使用相机估计当前位姿的方案.
    title
  • 本文的创新点:
  • 之前的方案无法在室内场景中提取足够的特征(如墙面)。本文采用 multi-scale dense CNN features (CNN提前预训练好,提取多层网络特征。) 用于图片描述和特征匹配。
  • 本文通过将问询图像(query image)与一个通过3D模型合成的虚拟视角比较,来验证新视角是否解析正确。
  • 具体流程: NetVLAD方法(一个使用 CNN 和聚类来进行图像检索的方法)查询图片和数据库图片,选取最高的100个,使用 multi-scale dense CNN features 来对这100进行重新排序,选出top 10 来通过合成视野进行验证。
    title

From coarse to fine: Robust hierarchical localization at large scale (2019)

  • 本文的目标是控制算力消耗的同时最大化定位鲁棒性
    title
  • 流程也是对比输入与数据库图像得到初步的结果(Prior retrieval),再通过 covisibility clustering 来把依照3D结构中可以被prior frames共同观察到的地点提取出来。对于每个地点,匹配从输入图像中提取的2D关键点和地点中所包含的3D点,结合一些现有方法推断出6-DoF姿态即完成定位。
    title
  • 训练的时候加了点多任务蒸馏
    title

Unifying deep local and global features for image search (2020)

  • 提出了一个模型同时完成全局特征和局部特征的提取。
  • 全局特征即把整张图用一个向量表示,局部特征则是提取纹理特征。
  • 基于分类方法训练的模型得到的一般都是全局特征,而之前提取局部特征则是使用模型的某一层特征图通过处理得到。
    title
  • 全局head使用了 GemPooling(即每个数的p次方和再开p次根,p可学习,本文p固定为3) 而非 AdaptiveP
2022-03-17 15:24:19    30    0    0

ShaRF: Shape-conditioned Radiance Fields from a Single View

  • title
  • title
  • 同时训练shape Network 和 Appearance network。训练时候需要全部的数据( Chairs数据集包含 6591 个椅子, cars 包含 3514 个小汽车)以及全部数据的体素分布网格(ground Truth)。对于 shape code 则是和网络联合优化,测试时使用到了测试数据之前算出来的 shape code。 Appearance code 同理。
    title
  • 由于是 supervised generation, 而且需要 rendering ,看起来并不适合大场景生成。

CodeNeRF : Disentangled Neural Radiance Fields for Object Categories

  • 与上一个类似,把shape和color分离,但是是在MLP层实现。同样 Zs和Zt是和网络在一起优化的。

title

title

StyleNeRF: A Style-based 3D-Aware Generator for High-resolution Image Synthesis

  • rendering 部分只渲染低清特征图,然后再逐步超分得到高清RGB。为了解决超分步骤中的3D不一致性,修改了 upsampler 并增加了新的正则化loss。
  • 正则化loss: 在超分结果中采样一些像素,并于真正的nerf结果相对比。
  • 上采样修改:
    title
    title
  • Results:
    title

  • Novelty 并不多,但关注了重要的问题,并且看起来效果不错。

NeRF in the Dark: High Dynamic Range View Synthesis from Noisy Raw Images

  • 直接使用 RAW数据,并且发现在数据量足够的适合(25-200)张图, NeRF对于噪音非常鲁棒。可以在低亮度条件下得到较好的图像。并且根据NeRF特性,还能调整焦距HDR等参数。
  • title
  • title
  • title