2021-06-21 22:22:39
2629
0
1
- 为什么 NVIDIA 的一些 submodule 非要C++现编译啊!给个只用 torch的版本不行吗!!!整整折腾了我六个小时。
- 发现原来出问题的地方有点多
- GCC 不能用
0.6.5
需要用 0.7.5
- pytorch 需要
1.8.1
以上(最后用了 1.9.0
),否则 pytorch 无法正确调用 ninja 1.10.0
- CUDA 版本需要 11.1 及以上,以及必须使用手动安装的 cudatoolkit(即安装到
/usr/local/cuda
),conda 自动安装以及驱动安装时安装的那个不行。请用 torch.version.cuda 查询cuda实际使用的版本。
- 似乎还需要python 3.8以上,3.7.2的环境满足上述要求的情况下也无法运行。
- 如果只需要复现一次,可用 colab 环境,安装 ninja 后即可复现。
- 更新一下:必须使用
1.8.1
,1.9.0
能Inference 不能 Train
- 更新一下:改回1.8.1会出现模块无法编译 TAT
2021-06-21 20:29:24
1620
0
0
NeRF++
- NeRF 关于视角颜色的Prior 的处理方式真的不错。知道这个函数比较平滑,于是把关于视角的信息在MLP靠后曾才加入,这样限制关于这个信息的平滑程度。
Space-time Neural Irradiance Fields for Free-Viewpoint Video
- 促使网络学习图像变换是因为视角变化而不是角色动作
- 促使网络认为遮挡部分随时间变化少。
- 使用了深度信息。
Making a NeRF Relightable With Shadows
2021-06-20 13:35:00
1407
0
0
LR-GAN: Layered recursive generative adversarial networks for image generation
- 168 cite, github 开源, ICLR 2017
- 比较早的尝试分background和foreground生成的文章。
- 这个一层一层绘制上去的思路还不错。
- 但是根据BlockGAN说的,本文如果在背景加点噪音,会大幅影响后续每层生成。
INVESTIGATING OBJECT COMPOSITIONALITY IN GENERATIVE ADVERSARIAL NETWORKS
- 12 cite, 无github,NN 2020
- 这篇文章采用每个物体自己预测一个 alpha channel 来当透明度,然后一层一层叠加起来得到最后的图片。
- 这篇文章似乎2018年就挂出来了,但缺少相对可靠的实验结果。
BlockGAN: Learning 3D Object-aware Scene Representations from Unlabelled Images
- 26 cite, github 开源, NIPS 2020
- 同样是引入姿态信息的先验,只是先用3D卷积生成物体,然后可微旋转场景,比较早的想引入物体姿态信息的GAN。
RELATE: Physically Plausible Multi-Object Scene Synthesis Using Structured Latent Spaces
- 7 citation, github 开源, NIPS 2020(为什么都是同一个会议,这篇把上面那个当对比的baseline)
- 每个物体由 (Z,θ) 决定,T 模块为重新调整物体角度使得物体不相交。 通过限制每个网络的feature m
2021-06-20 08:53:54
1412
0
0
LR-GAN: Layered recursive generative adversarial networks for image generation
- 168 cite, github 开源, ICLR 2017
- 比较早的尝试分background和foreground生成的文章。
- 这个一层一层绘制上去的思路还不错。
- 但是根据BlockGAN说的,本文如果在背景加点噪音,会大幅影响后续每层生成。
INVESTIGATING OBJECT COMPOSITIONALITY IN GENERATIVE ADVERSARIAL NETWORKS
- 12 cite, 无github,NN 2020
- 这篇文章采用每个物体自己预测一个 alpha channel 来当透明度,然后一层一层叠加起来得到最后的图片。
- 这篇文章似乎2018年就挂出来了,但缺少相对可靠的实验结果。
BlockGAN: Learning 3D Object-aware Scene Representations from Unlabelled Images
- 26 cite, github 开源, NIPS 2020
- 同样是引入姿态信息的先验,只是先用3D卷积生成物体,然后可微旋转场景,比较早的想引入物体姿态信息的GAN。
RELATE: Physically Plausible Multi-Object Scene Synthesis Using Structured Latent Spaces
- 7 citation, github 开源, NIPS 2020(为什么都是同一个会议,这篇把上面那个当对比的baseline)
- 每个物体由 (Z,θ) 决定,T 模块为重新调整物体角度使得物体不相交。 通过限制每个网络的feature map(大小为
2021-06-20 01:53:19
2421
0
0
Info
- Conference: 3月29号挂到 arxiv,可能是CVPR中了?
- Cites: 0
- Github Stars: /
- Github Solved/Issue: /
- Author:
Main Idea
- 用了一个非常玄乎的方法做到了一件非常神奇的事情。
- 使用无标注的多视角图片还原一个3D模型。
- 方法上是用一个输入随机 pose 输出图片的GAN来假设可以学到一个角度。通过 Phase A 和 Phase B 的迭代来得到训练集图片的 pose 对应的 hidden space。一个正确的 Pose 会是一个 AB 迭代的稳定解,但收敛是没有保证的。
2021-06-15 18:46:08
957
0
0
Info
- Conference: 6月7号挂到 arxiv,估计是 NeruaIPS
- Cites: 0
- Github Stars: /
- Github Solved/Issue: /
- Author:
Main Idea
- 好家伙,DeepMind 的文章...说实话文章效果看起来有点糟糕
- 这篇文章也是尝试解决多视角的问题。
- 这篇文章的 SIMONe 是一个 variational auto-encoder。"SIMONe relies on a factorized
latent space which enforces a separation of static object attributes from global, dynamic properties such as camera pose",即在 Latent Space 上尝试做分离。这个 Encoder 部分是 Transformer,即可控性可能有限。
Results
- 效果上相对其他方法有显著提升,但是这篇文章主要是 NeRF 的竞品,不影响我们的proposal。
2021-06-15 14:07:16
384
0
0
Info
- Conference: CVPR 2021
- Cites: 16
- Github Stars: 80
- Github Solved/Issue: 5/5
- Author:
Main Idea
- 和之前新Idea非常接近的一篇paper,CVPR2021 best paper 提名(这时候才关注到),已经有16个cite了,github 7 个 fork。
从 Related works 里面发现,这类方法叫做 GAN-based Image Synthesis
。整个大任务其实是和 NeRF 有高关联度的,目的都是获得 Novel View Synthesis。
GAN-based Image Synthesis
: 通过 GAN 可控地生成可解析(如特征控制等)的场景。
Implicit Functions
: NeRF 这种就算利用 Implicit Functions,并且目前这类方法是学习 3D 场景的主流。
- NeRF: 用神经网络学习了一个物体的渲染场,通过多视角图片可以学习到物体任意视角的渲染结果。
- NeRF: x 是点坐标,d是视角方向。
- GRAF: 用 unposed image collections,学出一类物体的 Generative Feild,并且做到生成特征可控。
GRAF: 增加了shape and appearance 的控制变量
GRAF 样例
本文用多个 GRAF + scale and transpose 得到了如下的网络结构(这不就是和那个Idea一模一样的吗?!)
- 这里每个物体仿射变换就是乘一个矩阵,由于是
Implicit Functions
所以这个变换比传统GAN更容易。
- 在场景合成上包括 N-1 个物体和一个背景,每个前置GAN生成一个M维的向量(3维就是RGB),然后组何部分直接采用3D渲染的方式,算算透明度然后加起来,得到一个16x16的图。
- 最后再用一个2D 的后处理网络超分到 64x64 或者 256x256。 在前后顺序上,是默认 GAN1 遮挡
2021-06-04 18:58:49
800
0
0
- 总结一下在近期看到的有新意的论文以及从中得到的 Idea。
2021-05-22 00:51:37
945
0
0
- 总结一下在近期看到的有新意的论文以及从中得到的 Idea。
DVC: An End-to-end Deep Video Compression Framework
- 对于一些现在 NN 难以处理,依旧需要划分多 Stage 的任务(如Speech),可以把每一部分做成NN,然后尝试把中间部分可导,最后串起来。
- 使 quant 可导: 把 quant 视为 noise 训练的时候加 noise, inference 替代为 quant。
- 使 Entropy Encoding 长度可导:推导一个连续情况下的下届作为训练目标,得到一个类似于 CE 的东西来用于训练。
EagleEye: Fast Sub-net Evaluation for Efficient Neural Network Pruning
- 对于所有需要 搜索+评估NN 的过程,减少评估NN的finetune代价,增加搜索效率,就能发一篇不错的paper。
- 毕竟 2xtime random search 好于很多策略。
Deep Generative Prior
- 很有启发的一个方向,甚至可能是今后图像复原任务的主流方法。
- 可以尝试应用到 Style Transfer。
- 尝试固定部分权重,看看 GAN 生成空间会变成什么样。
- 可能适用于图像和视频的压缩(这样和使用 auto encoder 有哪些区别?)。
- finetune 得到的权重空间会遗忘以前多少信息?和Life Long Learning 有啥关系
Training Interpretable Convolutional Neural Networks by Differentiating Class-specific Filters
- Label-aware sparsity。 全新的权重稀疏方式,可能做到硬件友好的同时,避免 Channel pruning 的 downside。似乎总 weight 并不会减少,但是 flops 可以变少。
2021-05-21 17:27:43
942
0
0
Info
- Conference: CVPR 2021 Oral
- Cites: 1
- Github Stars: 647
- Github Solved/Issue: 11/13
- Author:
Main Idea
- 无监督寻找控制 GAN 图像生成的 latent space 方向。
- 之前的这类可控特征生成一般都要先定义特征,然后使用有 label 的数据辅助特征空间学习。
- 一般输入是符合高斯分布的 x ,然后通过 z = f(x) 变换到特征空间,再把 z 加到 GAN 里面控制生成。
- 这篇文章假设 1. f(x) = Ax. 2. 假设 z 的变化和图像变化是正比的。
- 那么 A 矩阵的最大的特征向量就是操控图像变化的最好方向。然后检查最大的几十个特征向量,找到看起来有意义的特征向量作为特征控制。
- 主意挺简单,效果一般般,但至少work了
- 找到的对应向量的解耦程度依旧有限,从github图像可以看出,相比有 label 的特征,这些特征和人类理解的特征分离还是有一定差距。
- 结合之前 Deep Generative Prior,是不是可以做到给定一张图片,然后 Finetune 几个 epoch 使得这张图本身存在于当前 generator 的生成域当中,然后对特征变换进行控制,从而得到图片的衍生版本(比如换视角biao'qing)。