2021-06-20 13:35:00    1262    0    0

Topic: 3D 视觉,场景生成

LR-GAN: Layered recursive generative adversarial networks for image generation

  • 168 cite, github 开源, ICLR 2017
  • title
  • 比较早的尝试分background和foreground生成的文章。
  • title
  • 这个一层一层绘制上去的思路还不错。
  • 但是根据BlockGAN说的,本文如果在背景加点噪音,会大幅影响后续每层生成。

INVESTIGATING OBJECT COMPOSITIONALITY IN GENERATIVE ADVERSARIAL NETWORKS

  • 12 cite, 无github,NN 2020
  • title
  • 这篇文章采用每个物体自己预测一个 alpha channel 来当透明度,然后一层一层叠加起来得到最后的图片。
  • 这篇文章似乎2018年就挂出来了,但缺少相对可靠的实验结果。

BlockGAN: Learning 3D Object-aware Scene Representations from Unlabelled Images

  • 26 cite, github 开源, NIPS 2020
  • title
  • 同样是引入姿态信息的先验,只是先用3D卷积生成物体,然后可微旋转场景,比较早的想引入物体姿态信息的GAN。

RELATE: Physically Plausible Multi-Object Scene Synthesis Using Structured Latent Spaces

  • 7 citation, github 开源, NIPS 2020(为什么都是同一个会议,这篇把上面那个当对比的baseline)
  • title
  • 每个物体由 (Z,θ) 决定,T 模块为重新调整物体角度使得物体不相交。 通过限制每个网络的feature m
2021-06-20 08:53:54    1250    0    0

LR-GAN: Layered recursive generative adversarial networks for image generation

  • 168 cite, github 开源, ICLR 2017
  • title
  • 比较早的尝试分background和foreground生成的文章。
  • title
  • 这个一层一层绘制上去的思路还不错。
  • 但是根据BlockGAN说的,本文如果在背景加点噪音,会大幅影响后续每层生成。

INVESTIGATING OBJECT COMPOSITIONALITY IN GENERATIVE ADVERSARIAL NETWORKS

  • 12 cite, 无github,NN 2020
  • title
  • 这篇文章采用每个物体自己预测一个 alpha channel 来当透明度,然后一层一层叠加起来得到最后的图片。
  • 这篇文章似乎2018年就挂出来了,但缺少相对可靠的实验结果。

BlockGAN: Learning 3D Object-aware Scene Representations from Unlabelled Images

  • 26 cite, github 开源, NIPS 2020
  • title
  • 同样是引入姿态信息的先验,只是先用3D卷积生成物体,然后可微旋转场景,比较早的想引入物体姿态信息的GAN。

RELATE: Physically Plausible Multi-Object Scene Synthesis Using Structured Latent Spaces

  • 7 citation, github 开源, NIPS 2020(为什么都是同一个会议,这篇把上面那个当对比的baseline)
  • title
  • 每个物体由 (Z,θ) 决定,T 模块为重新调整物体角度使得物体不相交。 通过限制每个网络的feature map(大小为
2021-06-20 01:53:19    1726    0    0

Info

  • Conference: 3月29号挂到 arxiv,可能是CVPR中了?
  • Cites: 0
  • Github Stars: /
  • Github Solved/Issue: /
  • Author: title

Main Idea

  • 用了一个非常玄乎的方法做到了一件非常神奇的事情。
  • 使用无标注的多视角图片还原一个3D模型。
  • title
  • 方法上是用一个输入随机 pose 输出图片的GAN来假设可以学到一个角度。通过 Phase A 和 Phase B 的迭代来得到训练集图片的 pose 对应的 hidden space。一个正确的 Pose 会是一个 AB 迭代的稳定解,但收敛是没有保证的。
  • title

Comments

  • 很有意思的工作,可能复现会是一个we
2021-06-15 18:46:08    903    0    0

Info

  • Conference: 6月7号挂到 arxiv,估计是 NeruaIPS
  • Cites: 0
  • Github Stars: /
  • Github Solved/Issue: /
  • Author: title

Main Idea

  • 好家伙,DeepMind 的文章...说实话文章效果看起来有点糟糕
  • 这篇文章也是尝试解决多视角的问题。
  • 这篇文章的 SIMONe 是一个 variational auto-encoder。"SIMONe relies on a factorized
    latent space which enforces a separation of static object attributes from global, dynamic properties such as camera pose",即在 Latent Space 上尝试做分离。这个 Encoder 部分是 Transformer,即可控性可能有限。
  • title

Results

  • 效果上相对其他方法有显著提升,但是这篇文章主要是 NeRF 的竞品,不影响我们的proposal。
  • title
2021-06-15 14:07:16    364    0    0

Info

  • Conference: CVPR 2021
  • Cites: 16
  • Github Stars: 80
  • Github Solved/Issue: 5/5
  • Author: title

Main Idea

  • 和之前新Idea非常接近的一篇paper,CVPR2021 best paper 提名(这时候才关注到),已经有16个cite了,github 7 个 fork。
  • title
  • title

  • 从 Related works 里面发现,这类方法叫做 GAN-based Image Synthesis。整个大任务其实是和 NeRF 有高关联度的,目的都是获得 Novel View Synthesis。

  • GAN-based Image Synthesis: 通过 GAN 可控地生成可解析(如特征控制等)的场景。
  • Implicit Functions: NeRF 这种就算利用 Implicit Functions,并且目前这类方法是学习 3D 场景的主流。
  • NeRF: 用神经网络学习了一个物体的渲染场,通过多视角图片可以学习到物体任意视角的渲染结果。
  • NeRF: x 是点坐标,d是视角方向。 title
  • GRAF: 用 unposed image collections,学出一类物体的 Generative Feild,并且做到生成特征可控。
  • GRAF: 增加了shape and appearance 的控制变量 title

  • GRAF 样例

  • title

  • 本文用多个 GRAF + scale and transpose 得到了如下的网络结构(这不就是和那个Idea一模一样的吗?!)

  • title
  • 这里每个物体仿射变换就是乘一个矩阵,由于是 Implicit Functions 所以这个变换比传统GAN更容易。
  • 在场景合成上包括 N-1 个物体和一个背景,每个前置GAN生成一个M维的向量(3维就是RGB),然后组何部分直接采用3D渲染的方式,算算透明度然后加起来,得到一个16x16的图。title
  • 最后再用一个2D 的后处理网络超分到 64x64 或者 256x256。 在前后顺序上,是默认 GAN1 遮挡
2021-06-04 18:58:49    737    0    0
  • 总结一下在近期看到的有新意的论文以及从中得到的 Idea。

Self-Supervised Scene De-occlusion (CVPR2020 Oral)

  • title
  • 核性部分在于自己通过创造遮挡物体数据集来训练。
  • title
  • 通过网络输出的结果来判断两个物体的前后关系(网络做了补全->被挡了,没做->没被挡)。
  • title
  • 结构上分为一个补全 mask 一个补全内容的网络。
  • Demo 看起来非常有意思。
  • 但这个 work 有个缺点在于对于一个被遮挡后分成两截的东西,复原后可能成为两个单独的物体。

Compositional GAN (ICLR 2019)

  • 合理地用GAN摆放两个物体
  • title
  • title
  • 实现方法
  • title
  • 对于成对的数据,用了一个网络来输入一个椅子,一个桌子mask,得到 调整角度后的椅子。对于非成对的数据,segmentation后+补全得到成对数据。然后训练结构设计中使用了大量的 Cycle Consistency 的思想。
  • 看了看 cite 这篇文章的文章,目前还没有人做多物体复杂场景可微组合。如下是另一篇文章的架构,比这篇看起来简洁一些
  • title
2021-05-22 00:51:37    818    0    0
  • 总结一下在近期看到的有新意的论文以及从中得到的 Idea。

DVC: An End-to-end Deep Video Compression Framework

  • 对于一些现在 NN 难以处理,依旧需要划分多 Stage 的任务(如Speech),可以把每一部分做成NN,然后尝试把中间部分可导,最后串起来。
  • 使 quant 可导: 把 quant 视为 noise 训练的时候加 noise, inference 替代为 quant。
  • 使 Entropy Encoding 长度可导:推导一个连续情况下的下届作为训练目标,得到一个类似于 CE 的东西来用于训练。

EagleEye: Fast Sub-net Evaluation for Efficient Neural Network Pruning

  • 对于所有需要 搜索+评估NN 的过程,减少评估NN的finetune代价,增加搜索效率,就能发一篇不错的paper。
  • 毕竟 2xtime random search 好于很多策略。

Deep Generative Prior

  • 很有启发的一个方向,甚至可能是今后图像复原任务的主流方法。
  • 可以尝试应用到 Style Transfer。
  • 尝试固定部分权重,看看 GAN 生成空间会变成什么样。
  • 可能适用于图像和视频的压缩(这样和使用 auto encoder 有哪些区别?)。
  • finetune 得到的权重空间会遗忘以前多少信息?和Life Long Learning 有啥关系

Training Interpretable Convolutional Neural Networks by Differentiating Class-specific Filters

  • Label-aware sparsity。 全新的权重稀疏方式,可能做到硬件友好的同时,避免 Channel pruning 的 downside。似乎总 weight 并不会减少,但是 flops 可以变少。

SeFa - Closed-Form Factorization of Latent Semantics in GANs

  • 找到与图像关联
2021-05-21 17:27:43    805    0    0

Info

  • Conference: CVPR 2021 Oral
  • Cites: 1
  • Github Stars: 647
  • Github Solved/Issue: 11/13
  • Author: title

Main Idea

  • 无监督寻找控制 GAN 图像生成的 latent space 方向。
  • title
  • 之前的这类可控特征生成一般都要先定义特征,然后使用有 label 的数据辅助特征空间学习。
  • 一般输入是符合高斯分布的 x ,然后通过 z = f(x) 变换到特征空间,再把 z 加到 GAN 里面控制生成。
  • 这篇文章假设 1. f(x) = Ax. 2. 假设 z 的变化和图像变化是正比的。
  • 那么 A 矩阵的最大的特征向量就是操控图像变化的最好方向。然后检查最大的几十个特征向量,找到看起来有意义的特征向量作为特征控制。

Comments

  • 主意挺简单,效果一般般,但至少work了
  • 找到的对应向量的解耦程度依旧有限,从github图像可以看出,相比有 label 的特征,这些特征和人类理解的特征分离还是有一定差距。
  • 结合之前 Deep Generative Prior,是不是可以做到给定一张图片,然后 Finetune 几个 epoch 使得这张图本身存在于当前 generator 的生成域当中,然后对特征变换进行控制,从而得到图片的衍生版本(比如换视角biao'qing)。
2021-05-19 19:45:54    794    0    0

Info

  • Conference: ECCV 2020 Oral
  • Cites: 1
  • Github Stars: 15
  • Github Solved/Issue: 1/1
  • Author: title

Main Idea

  • 这篇文章是什么样的好运气碰到什么样的 Reviewer 能混到 Oral 的???
  • 文章 Idea 讲的很好,方法很烂(换我就给拒了)
  • title
  • 作者希望每个 feature channel 能独立对应一类物品,从而增加可解释性
  • 实现方式呢,是用一个可学习的 mask 来解决的,为了可导 mask 是浮点
  • title
  • 作者发现直接用 CSG path 学不动,于是正常训练和 CSG path 交替进行
  • title
  • 到这,都很正常,但是 mask 如何 train 一个 high sparsity 的 01 矩阵出来呢?
  • 接下来的方法就开始扯淡了,先给矩阵增加 L1 loss,再每次迭代后重新归一化(作者还搞错了什么叫矩阵的inf norm)
  • title
  • 然后 forward 竟然是直接乘上这个矩阵的权重(这种操作实际上只会导致前面系数变小的同时,后面卷积核系数相应变大,在前面系数非常接近0的时候,整个网络loss会直接爆炸)
  • title
  • 他这样的操作,等效于给网络 channel 上的 Kernel 加统一的 L1 regularization,也就是 Weight Decay.

Exp

  • 不出所料,增大 weight decay 有用的数据集上有用,没用的数据集上没用
  • ImageNet 掉 2 个点
  • title
  • 后面一些实验确实证明了他学出来的这个 channel 的 channel-wise 稀疏度更高
  • title

Comments

  • 这篇文章的实验上还是非常完善的,虽然方法非常糟糕,但是实验能证明他们一定程度达成了他们想达成的效果。写文章还是要向这篇文章学习一下。
  • 分享这篇文章的主要原因在于,这篇文章给了我一个启发——能不能训练出只依赖于少量 channel 的 kernel,从而达成权重 sparsity 的同时避免 Channel Pruning 的 downsides。
  • 以及,训练网络生成 one-hot vector 的最好方式是什么? 类似于 attention 那种
2021-05-14 14:31:23    997    0    0

Info

  • Conference: ECCV 2020 Oral
  • Cites: 3
  • Github Stars: /
  • Github Solved/Issue: /
  • Author: title

Main Idea

  • 新的 NAS 思路,把 early stop 做到 channel 上,channel的划分方式直接靠 NAS。
  • *