StyleGAN2 复现踩坑记

2021-06-21 22:22:39 2629 0 1

为什么 NVIDIA 的一些 submodule 非要C++现编译啊！给个只用 torch的版本不行吗！！！整整折腾了我六个小时。
发现原来出问题的地方有点多
GCC 不能用 0.6.5 需要用 0.7.5
pytorch 需要 1.8.1 以上(最后用了 1.9.0)，否则 pytorch 无法正确调用 ninja 1.10.0
CUDA 版本需要 11.1 及以上，以及必须使用手动安装的 cudatoolkit（即安装到 /usr/local/cuda），conda 自动安装以及驱动安装时安装的那个不行。请用 torch.version.cuda 查询cuda实际使用的版本。
似乎还需要python 3.8以上，3.7.2的环境满足上述要求的情况下也无法运行。
如果只需要复现一次，可用 colab 环境，安装 ninja 后即可复现。

更新一下：必须使用1.8.1，1.9.0能Inference 不能 Train

更新一下：改回1.8.1会出现模块无法编译 TAT

我最后放弃conda了！docker 大法好！！

查看

20210621 NeRF专题笔记

2021-06-21 20:29:24 1620 0 0

NeRF++

NeRF 关于视角颜色的Prior 的处理方式真的不错。知道这个函数比较平滑，于是把关于视角的信息在MLP靠后曾才加入，这样限制关于这个信息的平滑程度。

Space-time Neural Irradiance Fields for Free-Viewpoint Video

促使网络学习图像变换是因为视角变化而不是角色动作
促使网络认为遮挡部分随时间变化少。
使用了深度信息。

NeRF 加速—— KiloNeRF

场景分成小格，实现1080Ti上实时渲染
但小格子不好训，所以用 Teacher 进行 Ditill(约等于变相增加数据量)
Related Work，与其他加速方法正交

UNISURF

更好的3D Geometry, NeRF 图片很好但是 Geometry 很粗糙
方法：让密度项尽量接近1，以及增加额外的loss
这个组做了 GRAF 以及 GIRAFF

Making a NeRF Relightable With Shadows

title

查看

20210620论文总结

2021-06-20 13:35:00 1407 0 0

Topic: 3D 视觉，场景生成

LR-GAN: Layered recursive generative adversarial networks for image generation

168 cite, github 开源, ICLR 2017
比较早的尝试分background和foreground生成的文章。
这个一层一层绘制上去的思路还不错。
但是根据BlockGAN说的，本文如果在背景加点噪音，会大幅影响后续每层生成。

INVESTIGATING OBJECT COMPOSITIONALITY IN GENERATIVE ADVERSARIAL NETWORKS

12 cite, 无github，NN 2020
这篇文章采用每个物体自己预测一个 alpha channel 来当透明度，然后一层一层叠加起来得到最后的图片。
这篇文章似乎2018年就挂出来了，但缺少相对可靠的实验结果。

BlockGAN: Learning 3D Object-aware Scene Representations from Unlabelled Images

26 cite, github 开源, NIPS 2020
同样是引入姿态信息的先验，只是先用3D卷积生成物体，然后可微旋转场景，比较早的想引入物体姿态信息的GAN。

RELATE: Physically Plausible Multi-Object Scene Synthesis Using Structured Latent Spaces

7 citation, github 开源, NIPS 2020(为什么都是同一个会议，这篇把上面那个当对比的baseline)
每个物体由 $(Z,\theta)$ 决定， $T$ 模块为重新调整物体角度使得物体不相交。通过限制每个网络的feature m

查看

GAN+分层图+场景解析相关

2021-06-20 08:53:54 1412 0 0

LR-GAN: Layered recursive generative adversarial networks for image generation

168 cite, github 开源, ICLR 2017
比较早的尝试分background和foreground生成的文章。
这个一层一层绘制上去的思路还不错。
但是根据BlockGAN说的，本文如果在背景加点噪音，会大幅影响后续每层生成。

INVESTIGATING OBJECT COMPOSITIONALITY IN GENERATIVE ADVERSARIAL NETWORKS

12 cite, 无github，NN 2020
这篇文章采用每个物体自己预测一个 alpha channel 来当透明度，然后一层一层叠加起来得到最后的图片。
这篇文章似乎2018年就挂出来了，但缺少相对可靠的实验结果。

BlockGAN: Learning 3D Object-aware Scene Representations from Unlabelled Images

26 cite, github 开源, NIPS 2020
同样是引入姿态信息的先验，只是先用3D卷积生成物体，然后可微旋转场景，比较早的想引入物体姿态信息的GAN。

RELATE: Physically Plausible Multi-Object Scene Synthesis Using Structured Latent Spaces

7 citation, github 开源, NIPS 2020(为什么都是同一个会议，这篇把上面那个当对比的baseline)
每个物体由 $(Z,\theta)$ 决定， $T$ 模块为重新调整物体角度使得物体不相交。通过限制每个网络的feature map（大小为

查看

GNeRF: GAN-based Neural Radiance Field without Posed Camera

2021-06-20 01:53:19 2421 0 0

Info

Conference: 3月29号挂到 arxiv，可能是CVPR中了？
Cites: 0
Github Stars: /
Github Solved/Issue: /
Author:

Main Idea

用了一个非常玄乎的方法做到了一件非常神奇的事情。
使用无标注的多视角图片还原一个3D模型。
方法上是用一个输入随机 pose 输出图片的GAN来假设可以学到一个角度。通过 Phase A 和 Phase B 的迭代来得到训练集图片的 pose 对应的 hidden space。一个正确的 Pose 会是一个 AB 迭代的稳定解，但收敛是没有保证的。

Comments

很有意思的工作，可能复现会是一个we

查看

SIMONe: View-Invariant, Temporally-Abstracted Object Representations via Unsupervised Video Decomposition

2021-06-15 18:46:08 957 0 0

Info

Conference: 6月7号挂到 arxiv，估计是 NeruaIPS
Cites: 0
Github Stars: /
Github Solved/Issue: /
Author:

Main Idea

好家伙，DeepMind 的文章...说实话文章效果看起来有点糟糕
这篇文章也是尝试解决多视角的问题。
这篇文章的 SIMONe 是一个 variational auto-encoder。"SIMONe relies on a factorized
latent space which enforces a separation of static object attributes from global, dynamic properties such as camera pose"，即在 Latent Space 上尝试做分离。这个 Encoder 部分是 Transformer，即可控性可能有限。

Results

效果上相对其他方法有显著提升，但是这篇文章主要是 NeRF 的竞品，不影响我们的proposal。

查看

GIRAFFE: Representing Scenes as Compositional Generative Neural Feature Fields

2021-06-15 14:07:16 384 0 0

Info

Conference: CVPR 2021
Cites: 16
Github Stars: 80
Github Solved/Issue: 5/5
Author:

Main Idea

和之前新Idea非常接近的一篇paper，CVPR2021 best paper 提名（这时候才关注到），已经有16个cite了，github 7 个 fork。
从 Related works 里面发现，这类方法叫做 GAN-based Image Synthesis。整个大任务其实是和 NeRF 有高关联度的，目的都是获得 Novel View Synthesis。
GAN-based Image Synthesis: 通过 GAN 可控地生成可解析（如特征控制等）的场景。
Implicit Functions: NeRF 这种就算利用 Implicit Functions，并且目前这类方法是学习 3D 场景的主流。
NeRF: 用神经网络学习了一个物体的渲染场，通过多视角图片可以学习到物体任意视角的渲染结果。
NeRF: x 是点坐标，d是视角方向。
GRAF: 用 unposed image collections，学出一类物体的 Generative Feild，并且做到生成特征可控。
GRAF: 增加了shape and appearance 的控制变量
GRAF 样例
本文用多个 GRAF + scale and transpose 得到了如下的网络结构（这不就是和那个Idea一模一样的吗？！）
这里每个物体仿射变换就是乘一个矩阵，由于是 Implicit Functions 所以这个变换比传统GAN更容易。
在场景合成上包括 N-1 个物体和一个背景，每个前置GAN生成一个M维的向量（3维就是RGB），然后组何部分直接采用3D渲染的方式，算算透明度然后加起来，得到一个16x16的图。
最后再用一个2D 的后处理网络超分到 64x64 或者 256x256。在前后顺序上，是默认 $GAN_1$ 遮挡

查看

20210604论文总结

2021-06-04 18:58:49 800 0 0

总结一下在近期看到的有新意的论文以及从中得到的 Idea。

Self-Supervised Scene De-occlusion (CVPR2020 Oral)

核性部分在于自己通过创造遮挡物体数据集来训练。
通过网络输出的结果来判断两个物体的前后关系（网络做了补全->被挡了，没做->没被挡）。
结构上分为一个补全 mask 一个补全内容的网络。
Demo 看起来非常有意思。
但这个 work 有个缺点在于对于一个被遮挡后分成两截的东西，复原后可能成为两个单独的物体。

Compositional GAN (ICLR 2019)

合理地用GAN摆放两个物体
实现方法
对于成对的数据，用了一个网络来输入一个椅子，一个桌子mask，得到调整角度后的椅子。对于非成对的数据，segmentation后+补全得到成对数据。然后训练结构设计中使用了大量的 Cycle Consistency 的思想。
看了看 cite 这篇文章的文章，目前还没有人做多物体复杂场景可微组合。如下是另一篇文章的架构，比这篇看起来简洁一些

查看

20210522论文总结

2021-05-22 00:51:37 945 0 0

总结一下在近期看到的有新意的论文以及从中得到的 Idea。

DVC: An End-to-end Deep Video Compression Framework

对于一些现在 NN 难以处理，依旧需要划分多 Stage 的任务（如Speech），可以把每一部分做成NN，然后尝试把中间部分可导，最后串起来。
使 quant 可导：把 quant 视为 noise 训练的时候加 noise, inference 替代为 quant。
使 Entropy Encoding 长度可导：推导一个连续情况下的下届作为训练目标，得到一个类似于 CE 的东西来用于训练。

EagleEye: Fast Sub-net Evaluation for Efficient Neural Network Pruning

对于所有需要搜索+评估NN 的过程，减少评估NN的finetune代价，增加搜索效率，就能发一篇不错的paper。
毕竟 2xtime random search 好于很多策略。

Deep Generative Prior

很有启发的一个方向，甚至可能是今后图像复原任务的主流方法。
可以尝试应用到 Style Transfer。
尝试固定部分权重，看看 GAN 生成空间会变成什么样。
可能适用于图像和视频的压缩（这样和使用 auto encoder 有哪些区别？）。
finetune 得到的权重空间会遗忘以前多少信息？和Life Long Learning 有啥关系

Training Interpretable Convolutional Neural Networks by Differentiating Class-specific Filters

Label-aware sparsity。全新的权重稀疏方式，可能做到硬件友好的同时，避免 Channel pruning 的 downside。似乎总 weight 并不会减少，但是 flops 可以变少。

SeFa - Closed-Form Factorization of Latent Semantics in GANs

找到与图像关联

查看

SeFa - Closed-Form Factorization of Latent Semantics in GANs

2021-05-21 17:27:43 942 0 0

Info

Conference: CVPR 2021 Oral
Cites: 1
Github Stars: 647
Github Solved/Issue: 11/13
Author:

Main Idea

无监督寻找控制 GAN 图像生成的 latent space 方向。
之前的这类可控特征生成一般都要先定义特征，然后使用有 label 的数据辅助特征空间学习。
一般输入是符合高斯分布的 x ，然后通过 z = f(x) 变换到特征空间，再把 z 加到 GAN 里面控制生成。
这篇文章假设 1. f(x) = Ax. 2. 假设 z 的变化和图像变化是正比的。
那么 A 矩阵的最大的特征向量就是操控图像变化的最好方向。然后检查最大的几十个特征向量，找到看起来有意义的特征向量作为特征控制。

Comments

主意挺简单，效果一般般，但至少work了
找到的对应向量的解耦程度依旧有限，从github图像可以看出，相比有 label 的特征，这些特征和人类理解的特征分离还是有一定差距。
结合之前 Deep Generative Prior，是不是可以做到给定一张图片，然后 Finetune 几个 epoch 使得这张图本身存在于当前 generator 的生成域当中，然后对特征变换进行控制，从而得到图片的衍生版本（比如换视角biao'qing）。

查看

wuvin

NeRF++

Space-time Neural Irradiance Fields for Free-Viewpoint Video

NeRF 加速—— KiloNeRF

UNISURF

Making a NeRF Relightable With Shadows

Topic: 3D 视觉，场景生成

LR-GAN: Layered recursive generative adversarial networks for image generation

INVESTIGATING OBJECT COMPOSITIONALITY IN GENERATIVE ADVERSARIAL NETWORKS

BlockGAN: Learning 3D Object-aware Scene Representations from Unlabelled Images

RELATE: Physically Plausible Multi-Object Scene Synthesis Using Structured Latent Spaces

LR-GAN: Layered recursive generative adversarial networks for image generation

INVESTIGATING OBJECT COMPOSITIONALITY IN GENERATIVE ADVERSARIAL NETWORKS

BlockGAN: Learning 3D Object-aware Scene Representations from Unlabelled Images

RELATE: Physically Plausible Multi-Object Scene Synthesis Using Structured Latent Spaces

Info

Main Idea

Comments

Info

Main Idea

Results

Info

Main Idea

Self-Supervised Scene De-occlusion (CVPR2020 Oral)

Compositional GAN (ICLR 2019)

DVC: An End-to-end Deep Video Compression Framework

EagleEye: Fast Sub-net Evaluation for Efficient Neural Network Pruning

Deep Generative Prior

Training Interpretable Convolutional Neural Networks by Differentiating Class-specific Filters

SeFa - Closed-Form Factorization of Latent Semantics in GANs

Info

Main Idea

Comments