2021-10-18 10:35:29    71    0    0

Learning to Recover 3D Scene Shape from a Single Image

title

  • 首次在单图像 3D 场景回复中考虑了焦距,从而显著提升了场景复原的效果。
  • title
  • 网络分成两部分,一部分预测深度,一部分矫正深度+矫正焦距f。

NeuralRecon: Real-Time Coherent 3D Reconstruction From Monocular Video

  • title
  • 使用 GRU 来完成了多帧之间的信息交流,而非以往的多个单帧做平均。
  • title
  • 效果相对以往的方法似乎也没提升多少,但是速度快了不少。
  • title

#

2021-10-16 18:06:15    163    0    0

Diffusion Probabilistic Models for 3D Point Cloud Generation

  • 把 Diffusion Probabilistic Models 做到了点云上。原来的加高斯噪音的操作变成了粒子的自由扩散操作。
  • title
  • 效果上和其他模型似乎差不多
  • title

Convolutional Generation of Textured 3D Meshes

  • 使用GAN 生成位移贴图(相当于球上每个顶点位移量, UV map 可以把球映射到平面)的方式来实现 3D mesh 生成。

title

Training Generative Adversarial Networks with Limited Data

  • 数据小了导致GAN训练不好的原因是判别器过拟合到训练数据。
  • title
  • 但数据增强扩充训练数据会导致数据增强部分也被生成器学到。
  • 本文改进了之前的训练框架
  • title
  • 提出了: Non leaking Aug —— 也就是施加这种增强后,整个分布依旧能推导出原分布(针对分布,单张图片不一定成立)。这也就意味着G只有生成真实分布,在增强后才不会被 D区分出来。
  • 同时实验展示了,对于多数常见的增强方式,如果增强概率 p<P0 就不会出现 leak(就像正常样本很多,少数被增强了,即使增强了也知道原来的分布)。
  • title
  • 然后设计了方法自适应地给每种增强方式学习 P0(该值与训练数据数量,D的结构和大小,训练数据种类都有关),在D过拟合时(validation set 里的真实图像开始被判断为生成图像,作者提出如下指标进行判断,并简化为第二个)
  • title
  • 结果(动态调整的p和rt还有训练FID)
  • title
  • title

Reconstructing Perceptive Images from Brain Activity by Shape-Semantic GAN

  • 把 fMRI 得到的信息分为浅层和深层两部分,分别作
2021-10-15 16:42:04    156    0    0

任务分类

title

  • 单人/多人 姿态估计, 2D/3D 关键点检测
  • 2D多人关键点检测 top-down pipeline: 行人检测 -> 关键点检测
  • bottm-up pipeline: 关键点检测 -> 关键点组装成人 (更快,但准确率更低)
  • 发展路线 CPM,Hourglass -> OpenPose -> CPN -> MSPN -> HRNet

HRNet

title

  • 多尺度分辨率融合
  • 关键点两个主流的方法: 回归关键点位置, 估计关键点heatmap,然后将热图最大值的位置作为关键点。
  • pipeline 几个部分
    (1)stem: stride-2卷积降低分辨率。
    (2)body: 生成与输入特征图分辨率相同的输出特征图。
    (3)regressor(head): 估计K个heatmaps(表示关键点位置),然后映射到全分辨率上。

PoseAug: A Differentiable Pose Augmentation Framework for 3D Human Pose Estimation

title

  • 将数据增强和模型训练关联起来,提出了一套可微的数据增强框架来生成训练数据,SOTA模型指标直接涨了9.1%
  • 如何让生成的数据多样,且对模型训练是有益的: 将数据增强模块变成可学习的,根据训练传回的loss来调整数据增强的难度和内容
  • 如何让生成的数据看上去自然,且真实合理: 用判别器来评估生成的数据的合理性,把反人类的动作给剔除掉
  • 进行三个方面的变换:Bone角度(BA, Bone Angel)、Bone长度(BL, Bone Length)、旋转和变形(RT, Rotation and Translation)。
  • 高斯噪声向量过MLP,变 (调节Bone角度,调节Bone长度,控制坐标旋转和变形)
  • KCS: 关节点的坐标矩阵转换为一个Bone矩阵,矩阵的对角元素能表示每个Bone的长度,其他元素也可以表示Bone之间的夹角
  • 本文在KCS的基础上,对不同关节进行拆分,分为五个组,即左右胳膊,左右腿,躯干,对每个组进行分别建立判别器,这样有助于维护生成姿态的多样性和合理性。
  • 需要提前训练一个 2D 关键点估计的网络,然后本文注
2021-10-14 23:15:33    37    0    0
  • CVPR, ICML, NIPS, ECCV, ICCV, AAAI, IJCAI 近一年的 best paper

CVPR

  • Privacy-Preserving Image Features via Adversarial Affine Subspace Embeddings
  • Learning Calibrated Medical Image Segmentation via Multi-Rater Agreement Modeling
  • Diffusion Probabilistic Models for 3D Point Cloud Generation
  • Task Programming: Learning Data Efficient Behavior Representations
  • PoseAug: A Differentiable Pose Augmentation Framework for 3D Human Pose Estimation
  • SCANimate: Weakly Supervised Learning of Skinned Clothed Avatar Networks
  • On Self-Contact and Human Pose
  • Binary TTC: A Temporal Geofence for Autonomous Navigation
  • Rethinking and Improving the Robustness of Image Style Transfer
  • Audio-Visual Instance Discrimination with Cross-Modal Agreement
  • Point2Skeleton: Learning Skeletal Representations from Point Clouds
  • Human POSEitioning System (HPS): 3D Human Pose Estimation and Self-Localization in Large Scenes From Body-Mounted Sensors
  • Where
2021-07-23 11:26:05    1166    0    0

参数

  1. all = ""
  2. $($(".input-metric-column-container")[3]).find(".job-table-row").each(
  3. function(){
  4. ret = "["
  5. $(this).find(".job-cell").each(
  6. function(){
  7. ret += "'" + $($(this).find("p")[0]).text() + "'" + ", ";
  8. });
  9. all += ret + '],\n';
  10. });
  11. console.log(all)

结果

  1. all = ""
  2. $($(".input-metric-column-container")[5]).find(".job-table-row").each(
  3. function(){
  4. ret = "["
  5. $(this).find(".job-cell").each(
  6. function(){
  7. ret += $($(this).find("p")[0]).text() + ", ";
  8. });
  9. all += ret + '],\n';
  10. });
  11. console.log(all)
2021-07-06 10:17:20    1279    0    0

Imperceptible, Robust, and Targeted Adversarial Examples for Automatic Speech Recognition

  • ICML 2019
  • 根据听觉心理声学原理,让增加的adversarial 尽可能听不出来
  • White-box,没有考虑时间偏移

Imperio: Robust Over-the-Air Adversarial Examples for Automatic Speech Recognition Systems

  • 未发表
  • white-box,没有考虑时间偏移
  • 考虑了狭窄屋里回音(混响RIR)的问题(实际解决方案为把混响model成一个layer加在模型前面)

AdvPulse

  • 发表于 CCS2020 (CCF 网络安全A类会议)
  • 文章的创新点在于讨论了时间偏移,通过增加长度有限的一节 Universal Attack 来改变识别
  • 通过将 adv attack 伪装成例如手机铃声来避免被人类发现
  • 只做了 White-box Attack on Speaker 识别, Speech 单词识别, Attack 是 Universal的(只与模型相关)

REAL-TIME, UNIVERSAL, AND ROBUST ADVERSARIAL ATTACKS AGAINST SPEAKER RECOGNITION SYSTEMS

  • AdvPulse 同作者
  • 无时间偏移考虑, Universal,white-box, 考虑 RIR

Devil’s Whisper

  • 发表于 USENIX Security2020 (CCF 网络安全A类会议)
  • 做了常见语音识别助手(如Cortana, Echo)的 black-box attack(传统老方法,一个模型逼近 black-box,然后 attack这个模型)。
  • 没有考虑时间偏移

Audio Attacks and Defenses against AED Systems - A Practical Study

  • 未发表
  • 自称首个做音频识别的 Defense,cite了AdvPulse
  • 发现超采样、A
2021-06-29 15:08:56    1302    0    0
  • 使用的是 BigGAN 而不是 StyleGAN
  • BigGAN 对于每一类物品使用的不是 One-hot + MLP,而实每个类别训练一个 embedding 向量,良好的解决了 imagenet 中有不同种类的狗、猫、鸟等问题。
  • 初始时不是随机一个向量,而是初始随机了 N(about 400) 个初始位置,然后根据相似度(Discriminator后三层特征距离)选择最近的一个开始迭代。
  • 用了 z22 作为 negative log likelyhood loss,来对 z 的分布进行正则化。
dataset network params top1 err top5 err epoch(lr = 0.1) epoch(lr = 0.02) epoch(lr = 0.004) epoch(lr = 0.0008) total epoch
cifar100 mobilenet 3.3M 34.02 10.56 60 60 40 40 200
cifar100 mobilenetv2 2.36M 31.92 09.02 60 60 40 40 200
cifar100 squeezenet 0.78M 30.59 8.36 60 60 40 40 200
cifar100 shufflenet 1.0M 29.94 8.35 60 60 40 40 200
cifar100 shufflenetv2 1.3M 30.49 8.49 60 60 40 40 200
cifar100 vgg11_bn 28.5M 31.36
2021-06-21 22:22:39    1843    0    0
  • 为什么 NVIDIA 的一些 submodule 非要C++现编译啊!给个只用 torch的版本不行吗!!!整整折腾了我六个小时。
  • 发现原来出问题的地方有点多
  • GCC 不能用 0.6.5 需要用 0.7.5
  • pytorch 需要 1.8.1 以上(最后用了 1.9.0),否则 pytorch 无法正确调用 ninja 1.10.0
  • CUDA 版本需要 11.1 及以上,以及必须使用手动安装的 cudatoolkit(即安装到 /usr/local/cuda),conda 自动安装以及驱动安装时安装的那个不行。请用 torch.version.cuda 查询cuda实际使用的版本。
  • 似乎还需要python 3.8以上,3.7.2的环境满足上述要求的情况下也无法运行。
  • 如果只需要复现一次,可用 colab 环境,安装 ninja 后即可复现。

  • 更新一下:必须使用1.8.11.9.0能Inference 不能 Train

  • 更新一下:改回1.8.1会出现模块无法编译 TAT

  • 我最后放弃conda了!docker 大法好!!
2021-06-21 20:29:24    1469    0    0

NeRF++

  • title
  • NeRF 关于视角颜色的Prior 的处理方式真的不错。知道这个函数比较平滑,于是把关于视角的信息在MLP靠后曾才加入,这样限制关于这个信息的平滑程度。

Space-time Neural Irradiance Fields for Free-Viewpoint Video

  • 促使网络学习图像变换是因为视角变化而不是角色动作
  • 促使网络认为遮挡部分随时间变化少。
  • 使用了深度信息。
  • title
  • title

NeRF 加速—— KiloNeRF

  • 场景分成小格,实现1080Ti上实时渲染
  • title
  • 但小格子不好训,所以用 Teacher 进行 Ditill(约等于变相增加数据量)
  • title
  • Related Work,与其他加速方法正交
  • title

UNISURF

  • 更好的3D Geometry, NeRF 图片很好但是 Geometry 很粗糙
  • title
  • 方法:让密度项尽量接近1,以及增加额外的loss
  • title
  • title
  • 这个组做了 GRAF 以及 GIRAFF

Making a NeRF Relightable With Shadows

title

2021-06-20 13:35:00    1233    0    0

Topic: 3D 视觉,场景生成

LR-GAN: Layered recursive generative adversarial networks for image generation

  • 168 cite, github 开源, ICLR 2017
  • title
  • 比较早的尝试分background和foreground生成的文章。
  • title
  • 这个一层一层绘制上去的思路还不错。
  • 但是根据BlockGAN说的,本文如果在背景加点噪音,会大幅影响后续每层生成。

INVESTIGATING OBJECT COMPOSITIONALITY IN GENERATIVE ADVERSARIAL NETWORKS

  • 12 cite, 无github,NN 2020
  • title
  • 这篇文章采用每个物体自己预测一个 alpha channel 来当透明度,然后一层一层叠加起来得到最后的图片。
  • 这篇文章似乎2018年就挂出来了,但缺少相对可靠的实验结果。

BlockGAN: Learning 3D Object-aware Scene Representations from Unlabelled Images

  • 26 cite, github 开源, NIPS 2020
  • title
  • 同样是引入姿态信息的先验,只是先用3D卷积生成物体,然后可微旋转场景,比较早的想引入物体姿态信息的GAN。

RELATE: Physically Plausible Multi-Object Scene Synthesis Using Structured Latent Spaces

  • 7 citation, github 开源, NIPS 2020(为什么都是同一个会议,这篇把上面那个当对比的baseline)
  • title
  • 每个物体由 (Z,θ) 决定,T 模块为重新调整物体角度使得物体不相交。 通过限制每个网络的feature m