2021-07-23 11:26:05    1125    0    0

参数

  1. all = ""
  2. $($(".input-metric-column-container")[3]).find(".job-table-row").each(
  3. function(){
  4. ret = "["
  5. $(this).find(".job-cell").each(
  6. function(){
  7. ret += "'" + $($(this).find("p")[0]).text() + "'" + ", ";
  8. });
  9. all += ret + '],\n';
  10. });
  11. console.log(all)

结果

  1. all = ""
  2. $($(".input-metric-column-container")[5]).find(".job-table-row").each(
  3. function(){
  4. ret = "["
  5. $(this).find(".job-cell").each(
  6. function(){
  7. ret += $($(this).find("p")[0]).text() + ", ";
  8. });
  9. all += ret + '],\n';
  10. });
  11. console.log(all)
2021-07-06 10:17:20    1203    0    0

Imperceptible, Robust, and Targeted Adversarial Examples for Automatic Speech Recognition

  • ICML 2019
  • 根据听觉心理声学原理,让增加的adversarial 尽可能听不出来
  • White-box,没有考虑时间偏移

Imperio: Robust Over-the-Air Adversarial Examples for Automatic Speech Recognition Systems

  • 未发表
  • white-box,没有考虑时间偏移
  • 考虑了狭窄屋里回音(混响RIR)的问题(实际解决方案为把混响model成一个layer加在模型前面)

AdvPulse

  • 发表于 CCS2020 (CCF 网络安全A类会议)
  • 文章的创新点在于讨论了时间偏移,通过增加长度有限的一节 Universal Attack 来改变识别
  • 通过将 adv attack 伪装成例如手机铃声来避免被人类发现
  • 只做了 White-box Attack on Speaker 识别, Speech 单词识别, Attack 是 Universal的(只与模型相关)

REAL-TIME, UNIVERSAL, AND ROBUST ADVERSARIAL ATTACKS AGAINST SPEAKER RECOGNITION SYSTEMS

  • AdvPulse 同作者
  • 无时间偏移考虑, Universal,white-box, 考虑 RIR

Devil’s Whisper

  • 发表于 USENIX Security2020 (CCF 网络安全A类会议)
  • 做了常见语音识别助手(如Cortana, Echo)的 black-box attack(传统老方法,一个模型逼近 black-box,然后 attack这个模型)。
  • 没有考虑时间偏移

Audio Attacks and Defenses against AED Systems - A Practical Study

  • 未发表
  • 自称首个做音频识别的 Defense,cite了AdvPulse
  • 发现超采样、A
2021-06-29 15:08:56    1208    0    0
  • 使用的是 BigGAN 而不是 StyleGAN
  • BigGAN 对于每一类物品使用的不是 One-hot + MLP,而实每个类别训练一个 embedding 向量,良好的解决了 imagenet 中有不同种类的狗、猫、鸟等问题。
  • 初始时不是随机一个向量,而是初始随机了 N(about 400) 个初始位置,然后根据相似度(Discriminator后三层特征距离)选择最近的一个开始迭代。
  • 用了 z22 作为 negative log likelyhood loss,来对 z 的分布进行正则化。
dataset network params top1 err top5 err epoch(lr = 0.1) epoch(lr = 0.02) epoch(lr = 0.004) epoch(lr = 0.0008) total epoch
cifar100 mobilenet 3.3M 34.02 10.56 60 60 40 40 200
cifar100 mobilenetv2 2.36M 31.92 09.02 60 60 40 40 200
cifar100 squeezenet 0.78M 30.59 8.36 60 60 40 40 200
cifar100 shufflenet 1.0M 29.94 8.35 60 60 40 40 200
cifar100 shufflenetv2 1.3M 30.49 8.49 60 60 40 40 200
cifar100 vgg11_bn 28.5M 31.36
2021-06-21 22:22:39    1421    0    0
  • 为什么 NVIDIA 的一些 submodule 非要C++现编译啊!给个只用 torch的版本不行吗!!!整整折腾了我六个小时。
  • 发现原来出问题的地方有点多
  • GCC 不能用 0.6.5 需要用 0.7.5
  • pytorch 需要 1.8.1 以上(最后用了 1.9.0),否则 pytorch 无法正确调用 ninja 1.10.0
  • CUDA 版本需要 11.1 及以上,以及必须使用手动安装的 cudatoolkit(即安装到 /usr/local/cuda),conda 自动安装以及驱动安装时安装的那个不行。请用 torch.version.cuda 查询cuda实际使用的版本。
  • 似乎还需要python 3.8以上,3.7.2的环境满足上述要求的情况下也无法运行。
  • 如果只需要复现一次,可用 colab 环境,安装 ninja 后即可复现。

  • 更新一下:必须使用1.8.11.9.0能Inference 不能 Train

  • 更新一下:改回1.8.1会出现模块无法编译 TAT

  • 我最后放弃conda了!docker 大法好!!
2021-06-21 20:29:24    1272    0    0

NeRF++

  • title
  • NeRF 关于视角颜色的Prior 的处理方式真的不错。知道这个函数比较平滑,于是把关于视角的信息在MLP靠后曾才加入,这样限制关于这个信息的平滑程度。

Space-time Neural Irradiance Fields for Free-Viewpoint Video

  • 促使网络学习图像变换是因为视角变化而不是角色动作
  • 促使网络认为遮挡部分随时间变化少。
  • 使用了深度信息。
  • title
  • title

NeRF 加速—— KiloNeRF

  • 场景分成小格,实现1080Ti上实时渲染
  • title
  • 但小格子不好训,所以用 Teacher 进行 Ditill(约等于变相增加数据量)
  • title
  • Related Work,与其他加速方法正交
  • title

UNISURF

  • 更好的3D Geometry, NeRF 图片很好但是 Geometry 很粗糙
  • title
  • 方法:让密度项尽量接近1,以及增加额外的loss
  • title
  • title
  • 这个组做了 GRAF 以及 GIRAFF

Making a NeRF Relightable With Shadows

title

2021-06-20 13:35:00    1138    0    0

Topic: 3D 视觉,场景生成

LR-GAN: Layered recursive generative adversarial networks for image generation

  • 168 cite, github 开源, ICLR 2017
  • title
  • 比较早的尝试分background和foreground生成的文章。
  • title
  • 这个一层一层绘制上去的思路还不错。
  • 但是根据BlockGAN说的,本文如果在背景加点噪音,会大幅影响后续每层生成。

INVESTIGATING OBJECT COMPOSITIONALITY IN GENERATIVE ADVERSARIAL NETWORKS

  • 12 cite, 无github,NN 2020
  • title
  • 这篇文章采用每个物体自己预测一个 alpha channel 来当透明度,然后一层一层叠加起来得到最后的图片。
  • 这篇文章似乎2018年就挂出来了,但缺少相对可靠的实验结果。

BlockGAN: Learning 3D Object-aware Scene Representations from Unlabelled Images

  • 26 cite, github 开源, NIPS 2020
  • title
  • 同样是引入姿态信息的先验,只是先用3D卷积生成物体,然后可微旋转场景,比较早的想引入物体姿态信息的GAN。

RELATE: Physically Plausible Multi-Object Scene Synthesis Using Structured Latent Spaces

  • 7 citation, github 开源, NIPS 2020(为什么都是同一个会议,这篇把上面那个当对比的baseline)
  • title
  • 每个物体由 (Z,θ) 决定,T 模块为重新调整物体角度使得物体不相交。 通过限制每个网络的feature m
2021-06-20 08:53:54    1113    0    0

LR-GAN: Layered recursive generative adversarial networks for image generation

  • 168 cite, github 开源, ICLR 2017
  • title
  • 比较早的尝试分background和foreground生成的文章。
  • title
  • 这个一层一层绘制上去的思路还不错。
  • 但是根据BlockGAN说的,本文如果在背景加点噪音,会大幅影响后续每层生成。

INVESTIGATING OBJECT COMPOSITIONALITY IN GENERATIVE ADVERSARIAL NETWORKS

  • 12 cite, 无github,NN 2020
  • title
  • 这篇文章采用每个物体自己预测一个 alpha channel 来当透明度,然后一层一层叠加起来得到最后的图片。
  • 这篇文章似乎2018年就挂出来了,但缺少相对可靠的实验结果。

BlockGAN: Learning 3D Object-aware Scene Representations from Unlabelled Images

  • 26 cite, github 开源, NIPS 2020
  • title
  • 同样是引入姿态信息的先验,只是先用3D卷积生成物体,然后可微旋转场景,比较早的想引入物体姿态信息的GAN。

RELATE: Physically Plausible Multi-Object Scene Synthesis Using Structured Latent Spaces

  • 7 citation, github 开源, NIPS 2020(为什么都是同一个会议,这篇把上面那个当对比的baseline)
  • title
  • 每个物体由 (Z,θ) 决定,T 模块为重新调整物体角度使得物体不相交。 通过限制每个网络的feature map(大小为
2021-06-20 01:53:19    1304    0    0

Info

  • Conference: 3月29号挂到 arxiv,可能是CVPR中了?
  • Cites: 0
  • Github Stars: /
  • Github Solved/Issue: /
  • Author: title

Main Idea

  • 用了一个非常玄乎的方法做到了一件非常神奇的事情。
  • 使用无标注的多视角图片还原一个3D模型。
  • title
  • 方法上是用一个输入随机 pose 输出图片的GAN来假设可以学到一个角度。通过 Phase A 和 Phase B 的迭代来得到训练集图片的 pose 对应的 hidden space。一个正确的 Pose 会是一个 AB 迭代的稳定解,但收敛是没有保证的。
  • title

Comments

  • 很有意思的工作,可能复现会是一个we
2021-06-15 18:46:08    850    0    0

Info

  • Conference: 6月7号挂到 arxiv,估计是 NeruaIPS
  • Cites: 0
  • Github Stars: /
  • Github Solved/Issue: /
  • Author: title

Main Idea

  • 好家伙,DeepMind 的文章...说实话文章效果看起来有点糟糕
  • 这篇文章也是尝试解决多视角的问题。
  • 这篇文章的 SIMONe 是一个 variational auto-encoder。"SIMONe relies on a factorized
    latent space which enforces a separation of static object attributes from global, dynamic properties such as camera pose",即在 Latent Space 上尝试做分离。这个 Encoder 部分是 Transformer,即可控性可能有限。
  • title

Results

  • 效果上相对其他方法有显著提升,但是这篇文章主要是 NeRF 的竞品,不影响我们的proposal。
  • title
2021-06-15 14:07:16    337    0    0

Info

  • Conference: CVPR 2021
  • Cites: 16
  • Github Stars: 80
  • Github Solved/Issue: 5/5
  • Author: title

Main Idea

  • 和之前新Idea非常接近的一篇paper,CVPR2021 best paper 提名(这时候才关注到),已经有16个cite了,github 7 个 fork。
  • title
  • title

  • 从 Related works 里面发现,这类方法叫做 GAN-based Image Synthesis。整个大任务其实是和 NeRF 有高关联度的,目的都是获得 Novel View Synthesis。

  • GAN-based Image Synthesis: 通过 GAN 可控地生成可解析(如特征控制等)的场景。
  • Implicit Functions: NeRF 这种就算利用 Implicit Functions,并且目前这类方法是学习 3D 场景的主流。
  • NeRF: 用神经网络学习了一个物体的渲染场,通过多视角图片可以学习到物体任意视角的渲染结果。
  • NeRF: x 是点坐标,d是视角方向。 title
  • GRAF: 用 unposed image collections,学出一类物体的 Generative Feild,并且做到生成特征可控。
  • GRAF: 增加了shape and appearance 的控制变量 title

  • GRAF 样例

  • title

  • 本文用多个 GRAF + scale and transpose 得到了如下的网络结构(这不就是和那个Idea一模一样的吗?!)

  • title
  • 这里每个物体仿射变换就是乘一个矩阵,由于是 Implicit Functions 所以这个变换比传统GAN更容易。
  • 在场景合成上包括 N-1 个物体和一个背景,每个前置GAN生成一个M维的向量(3维就是RGB),然后组何部分直接采用3D渲染的方式,算算透明度然后加起来,得到一个16x16的图。title
  • 最后再用一个2D 的后处理网络超分到 64x64 或者 256x256。 在前后顺序上,是默认 GAN1 遮挡