2021-06-21 22:22:39    2629    0    1
  • 为什么 NVIDIA 的一些 submodule 非要C++现编译啊!给个只用 torch的版本不行吗!!!整整折腾了我六个小时。
  • 发现原来出问题的地方有点多
  • GCC 不能用 0.6.5 需要用 0.7.5
  • pytorch 需要 1.8.1 以上(最后用了 1.9.0),否则 pytorch 无法正确调用 ninja 1.10.0
  • CUDA 版本需要 11.1 及以上,以及必须使用手动安装的 cudatoolkit(即安装到 /usr/local/cuda),conda 自动安装以及驱动安装时安装的那个不行。请用 torch.version.cuda 查询cuda实际使用的版本。
  • 似乎还需要python 3.8以上,3.7.2的环境满足上述要求的情况下也无法运行。
  • 如果只需要复现一次,可用 colab 环境,安装 ninja 后即可复现。

  • 更新一下:必须使用1.8.11.9.0能Inference 不能 Train

  • 更新一下:改回1.8.1会出现模块无法编译 TAT

  • 我最后放弃conda了!docker 大法好!!
2021-06-21 20:29:24    1620    0    0

NeRF++

  • title
  • NeRF 关于视角颜色的Prior 的处理方式真的不错。知道这个函数比较平滑,于是把关于视角的信息在MLP靠后曾才加入,这样限制关于这个信息的平滑程度。

Space-time Neural Irradiance Fields for Free-Viewpoint Video

  • 促使网络学习图像变换是因为视角变化而不是角色动作
  • 促使网络认为遮挡部分随时间变化少。
  • 使用了深度信息。
  • title
  • title

NeRF 加速—— KiloNeRF

  • 场景分成小格,实现1080Ti上实时渲染
  • title
  • 但小格子不好训,所以用 Teacher 进行 Ditill(约等于变相增加数据量)
  • title
  • Related Work,与其他加速方法正交
  • title

UNISURF

  • 更好的3D Geometry, NeRF 图片很好但是 Geometry 很粗糙
  • title
  • 方法:让密度项尽量接近1,以及增加额外的loss
  • title
  • title
  • 这个组做了 GRAF 以及 GIRAFF

Making a NeRF Relightable With Shadows

title

2021-06-20 13:35:00    1407    0    0

Topic: 3D 视觉,场景生成

LR-GAN: Layered recursive generative adversarial networks for image generation

  • 168 cite, github 开源, ICLR 2017
  • title
  • 比较早的尝试分background和foreground生成的文章。
  • title
  • 这个一层一层绘制上去的思路还不错。
  • 但是根据BlockGAN说的,本文如果在背景加点噪音,会大幅影响后续每层生成。

INVESTIGATING OBJECT COMPOSITIONALITY IN GENERATIVE ADVERSARIAL NETWORKS

  • 12 cite, 无github,NN 2020
  • title
  • 这篇文章采用每个物体自己预测一个 alpha channel 来当透明度,然后一层一层叠加起来得到最后的图片。
  • 这篇文章似乎2018年就挂出来了,但缺少相对可靠的实验结果。

BlockGAN: Learning 3D Object-aware Scene Representations from Unlabelled Images

  • 26 cite, github 开源, NIPS 2020
  • title
  • 同样是引入姿态信息的先验,只是先用3D卷积生成物体,然后可微旋转场景,比较早的想引入物体姿态信息的GAN。

RELATE: Physically Plausible Multi-Object Scene Synthesis Using Structured Latent Spaces

  • 7 citation, github 开源, NIPS 2020(为什么都是同一个会议,这篇把上面那个当对比的baseline)
  • title
  • 每个物体由 (Z,θ) 决定,T 模块为重新调整物体角度使得物体不相交。 通过限制每个网络的feature m
2021-06-20 08:53:54    1412    0    0

LR-GAN: Layered recursive generative adversarial networks for image generation

  • 168 cite, github 开源, ICLR 2017
  • title
  • 比较早的尝试分background和foreground生成的文章。
  • title
  • 这个一层一层绘制上去的思路还不错。
  • 但是根据BlockGAN说的,本文如果在背景加点噪音,会大幅影响后续每层生成。

INVESTIGATING OBJECT COMPOSITIONALITY IN GENERATIVE ADVERSARIAL NETWORKS

  • 12 cite, 无github,NN 2020
  • title
  • 这篇文章采用每个物体自己预测一个 alpha channel 来当透明度,然后一层一层叠加起来得到最后的图片。
  • 这篇文章似乎2018年就挂出来了,但缺少相对可靠的实验结果。

BlockGAN: Learning 3D Object-aware Scene Representations from Unlabelled Images

  • 26 cite, github 开源, NIPS 2020
  • title
  • 同样是引入姿态信息的先验,只是先用3D卷积生成物体,然后可微旋转场景,比较早的想引入物体姿态信息的GAN。

RELATE: Physically Plausible Multi-Object Scene Synthesis Using Structured Latent Spaces

  • 7 citation, github 开源, NIPS 2020(为什么都是同一个会议,这篇把上面那个当对比的baseline)
  • title
  • 每个物体由 (Z,θ) 决定,T 模块为重新调整物体角度使得物体不相交。 通过限制每个网络的feature map(大小为
2021-06-20 01:53:19    2421    0    0

Info

  • Conference: 3月29号挂到 arxiv,可能是CVPR中了?
  • Cites: 0
  • Github Stars: /
  • Github Solved/Issue: /
  • Author: title

Main Idea

  • 用了一个非常玄乎的方法做到了一件非常神奇的事情。
  • 使用无标注的多视角图片还原一个3D模型。
  • title
  • 方法上是用一个输入随机 pose 输出图片的GAN来假设可以学到一个角度。通过 Phase A 和 Phase B 的迭代来得到训练集图片的 pose 对应的 hidden space。一个正确的 Pose 会是一个 AB 迭代的稳定解,但收敛是没有保证的。
  • title

Comments

  • 很有意思的工作,可能复现会是一个we
2021-06-15 18:46:08    957    0    0

Info

  • Conference: 6月7号挂到 arxiv,估计是 NeruaIPS
  • Cites: 0
  • Github Stars: /
  • Github Solved/Issue: /
  • Author: title

Main Idea

  • 好家伙,DeepMind 的文章...说实话文章效果看起来有点糟糕
  • 这篇文章也是尝试解决多视角的问题。
  • 这篇文章的 SIMONe 是一个 variational auto-encoder。"SIMONe relies on a factorized
    latent space which enforces a separation of static object attributes from global, dynamic properties such as camera pose",即在 Latent Space 上尝试做分离。这个 Encoder 部分是 Transformer,即可控性可能有限。
  • title

Results

  • 效果上相对其他方法有显著提升,但是这篇文章主要是 NeRF 的竞品,不影响我们的proposal。
  • title
2021-06-15 14:07:16    384    0    0

Info

  • Conference: CVPR 2021
  • Cites: 16
  • Github Stars: 80
  • Github Solved/Issue: 5/5
  • Author: title

Main Idea

  • 和之前新Idea非常接近的一篇paper,CVPR2021 best paper 提名(这时候才关注到),已经有16个cite了,github 7 个 fork。
  • title
  • title

  • 从 Related works 里面发现,这类方法叫做 GAN-based Image Synthesis。整个大任务其实是和 NeRF 有高关联度的,目的都是获得 Novel View Synthesis。

  • GAN-based Image Synthesis: 通过 GAN 可控地生成可解析(如特征控制等)的场景。
  • Implicit Functions: NeRF 这种就算利用 Implicit Functions,并且目前这类方法是学习 3D 场景的主流。
  • NeRF: 用神经网络学习了一个物体的渲染场,通过多视角图片可以学习到物体任意视角的渲染结果。
  • NeRF: x 是点坐标,d是视角方向。 title
  • GRAF: 用 unposed image collections,学出一类物体的 Generative Feild,并且做到生成特征可控。
  • GRAF: 增加了shape and appearance 的控制变量 title

  • GRAF 样例

  • title

  • 本文用多个 GRAF + scale and transpose 得到了如下的网络结构(这不就是和那个Idea一模一样的吗?!)

  • title
  • 这里每个物体仿射变换就是乘一个矩阵,由于是 Implicit Functions 所以这个变换比传统GAN更容易。
  • 在场景合成上包括 N-1 个物体和一个背景,每个前置GAN生成一个M维的向量(3维就是RGB),然后组何部分直接采用3D渲染的方式,算算透明度然后加起来,得到一个16x16的图。title
  • 最后再用一个2D 的后处理网络超分到 64x64 或者 256x256。 在前后顺序上,是默认 GAN1 遮挡
2021-06-04 18:58:49    800    0    0
  • 总结一下在近期看到的有新意的论文以及从中得到的 Idea。

Self-Supervised Scene De-occlusion (CVPR2020 Oral)

  • title
  • 核性部分在于自己通过创造遮挡物体数据集来训练。
  • title
  • 通过网络输出的结果来判断两个物体的前后关系(网络做了补全->被挡了,没做->没被挡)。
  • title
  • 结构上分为一个补全 mask 一个补全内容的网络。
  • Demo 看起来非常有意思。
  • 但这个 work 有个缺点在于对于一个被遮挡后分成两截的东西,复原后可能成为两个单独的物体。

Compositional GAN (ICLR 2019)

  • 合理地用GAN摆放两个物体
  • title
  • title
  • 实现方法
  • title
  • 对于成对的数据,用了一个网络来输入一个椅子,一个桌子mask,得到 调整角度后的椅子。对于非成对的数据,segmentation后+补全得到成对数据。然后训练结构设计中使用了大量的 Cycle Consistency 的思想。
  • 看了看 cite 这篇文章的文章,目前还没有人做多物体复杂场景可微组合。如下是另一篇文章的架构,比这篇看起来简洁一些
  • title
2021-05-22 00:51:37    945    0    0
  • 总结一下在近期看到的有新意的论文以及从中得到的 Idea。

DVC: An End-to-end Deep Video Compression Framework

  • 对于一些现在 NN 难以处理,依旧需要划分多 Stage 的任务(如Speech),可以把每一部分做成NN,然后尝试把中间部分可导,最后串起来。
  • 使 quant 可导: 把 quant 视为 noise 训练的时候加 noise, inference 替代为 quant。
  • 使 Entropy Encoding 长度可导:推导一个连续情况下的下届作为训练目标,得到一个类似于 CE 的东西来用于训练。

EagleEye: Fast Sub-net Evaluation for Efficient Neural Network Pruning

  • 对于所有需要 搜索+评估NN 的过程,减少评估NN的finetune代价,增加搜索效率,就能发一篇不错的paper。
  • 毕竟 2xtime random search 好于很多策略。

Deep Generative Prior

  • 很有启发的一个方向,甚至可能是今后图像复原任务的主流方法。
  • 可以尝试应用到 Style Transfer。
  • 尝试固定部分权重,看看 GAN 生成空间会变成什么样。
  • 可能适用于图像和视频的压缩(这样和使用 auto encoder 有哪些区别?)。
  • finetune 得到的权重空间会遗忘以前多少信息?和Life Long Learning 有啥关系

Training Interpretable Convolutional Neural Networks by Differentiating Class-specific Filters

  • Label-aware sparsity。 全新的权重稀疏方式,可能做到硬件友好的同时,避免 Channel pruning 的 downside。似乎总 weight 并不会减少,但是 flops 可以变少。

SeFa - Closed-Form Factorization of Latent Semantics in GANs

  • 找到与图像关联
2021-05-21 17:27:43    942    0    0

Info

  • Conference: CVPR 2021 Oral
  • Cites: 1
  • Github Stars: 647
  • Github Solved/Issue: 11/13
  • Author: title

Main Idea

  • 无监督寻找控制 GAN 图像生成的 latent space 方向。
  • title
  • 之前的这类可控特征生成一般都要先定义特征,然后使用有 label 的数据辅助特征空间学习。
  • 一般输入是符合高斯分布的 x ,然后通过 z = f(x) 变换到特征空间,再把 z 加到 GAN 里面控制生成。
  • 这篇文章假设 1. f(x) = Ax. 2. 假设 z 的变化和图像变化是正比的。
  • 那么 A 矩阵的最大的特征向量就是操控图像变化的最好方向。然后检查最大的几十个特征向量,找到看起来有意义的特征向量作为特征控制。

Comments

  • 主意挺简单,效果一般般,但至少work了
  • 找到的对应向量的解耦程度依旧有限,从github图像可以看出,相比有 label 的特征,这些特征和人类理解的特征分离还是有一定差距。
  • 结合之前 Deep Generative Prior,是不是可以做到给定一张图片,然后 Finetune 几个 epoch 使得这张图本身存在于当前 generator 的生成域当中,然后对特征变换进行控制,从而得到图片的衍生版本(比如换视角biao'qing)。