2021-02-19 17:43:58    122    0    0

High-Performance Large-Scale Image Recognition Without Normalization


Info

  • Conference: ICLR 2021
  • Cites: 1
  • Github Stars: 6.1k (included with other codes from deepmind)
  • Github Solved/Issue: 55/95
  • Author: title
  • title

Main Idea

  • 改进了 Batch Normalization, 通过一定的 Scale 和 Clip 代替 BN 从而实现效果提升,应用于自己设计的结构NFNET达到了ImageNet SOTA。
  • title
  • BN 有以下局限:内存占用高、训练Loss和测试Loss差异大、输入样本之间不再独立。
  • 同时BN有以下作用:Downscales the residual branch, eliminates mean-shift, has a regularizing effect, allows efficient large-batch training.
  • 文章采用 Adaptive Gradient Clipping 替代 BN,原本梯度裁剪是:
  • title
  • 替代为:
  • title
  • 也就是根据原有权重大小来决定裁剪力度(Motivation 是 原来权重的模越小,一个过大的梯度对于权重影响越大)。
  • title
  • 以下是大体网络结构设计,主要来源于 Normalizer-Free ResNets (Characterizing signal
    propagation to close the performance gap in unnormalized resnets, ).
  • title

Comments

  • 这个 Adaptive gradient clipping 的观察是很有意思的,因为本来卷积就是点乘,所以如果原本的W很小,梯度即使不大也会对方向产生很大的改变,从而改变个layer的输出内容含义。
2021-02-19 17:03:48    552    0    0

TransGAN: Two Transformers Can Make One Strong GAN


Info

  • Conference: arxiv 刚公开4天
  • Cites: 0
  • Github Stars: 529
  • Github Solved/Issue: 3/5
  • Author: title
    title

Main Idea

  • 用 Transformer 造 GAN。生成部分以像素为单位生成,识别部分还是用的patch为单位。
  • title
  • 和试别一样,数据增强对 Transformer based 比 Conv based 提高更显著。
  • title
  • 训练的时候,使用 mask 实现了 locality。
  • title

Results

  • title
  • title
  • title

Comments

  • Classification 打平, Detection Segmentation 超越, GAN 略低。还有什么 CNN 的事情是 Transformer 还没做的
2021-02-07 14:50:17    770    0    0

CVPR 2022

title

ICCV 2022

title

ECCV 2020

title

ICML 2021

title

2021-02-07 14:50:02    1302    0    0

DE⫶TR: End-to-End Object Detection with Transformers


Info

  • Conference: ECCV 2020
  • Cites: 114
  • Github Stars: 6.1k
  • Github Solved/Issue: 215/274
  • Author: title

Main Idea

  • 这也过于火爆了吧!
  • Transformer 做 Detection,没有 Anchor,decode出来就是 BOX。
  • 先用 CNN backbone 提取到 2048×H032×W032 维度。FFN是4层MLP,预测中心以及边长还有分类(有一个empty类)。
  • title
  • title
  • Object Query 也是训练出来的
  • title
  • 定义了如下Loss来避免输出重复结果(Loss用到了二分图匹配)
  • title
  • positional encoding 加的非常狠,Encoder 每一层都加,Decoder 也加的更多。

Results

  • title
  • title
  • title
  • title
  • 同时把分割也给做了
  • title
  • title

Comments

  • 不得不说作者对于 Transformer 的理解非常透彻。
  • 无论之前的论文还是这篇,都看得出来一件事情——底层特征提取还是CNN历害,高层特征就该转向Attention-Based Methods 更能够兼顾全局。
  • 这个网络听说要训练很久。
  • 这个FFN看起来还挺有改进的空间,看看有没有人做。
  • 至于为什么 Position Encoding 是直接加在 Feature 上的,以及为什么能 work 没看到解释。
  • 适合 CNN 的 Position Encoding 也值得yan'jiu
2021-02-07 10:23:59    1244    0    0

GETTING A CLUE: A METHOD FOR EXPLAINING UNCERTAINTY ESTIMATES


Info

  • Conference: ICLR 2021 Oral
  • Cites: 2
  • Github Stars: /
  • Github Solved/Issue: /
  • Author: /

Main Idea

  • 解释网络学习到的不确定性是什么,具体而言就是对于一个样本找到样本空间中相近的一个其他类样本。
  • 比如下图的8 (这真的是8吗?) 不确定,是因为和6太像了,差别就在右下图蓝色部分
  • title
  • title
  • 还设计了一个 user study 来证明 CLUE 解释的比人好
  • title

Comments

  • 文章只涉及了很小的 toy dataset (MNIST和其他几个很小的dataset,连 CIFAR 都没到)。虽然在 MNIST 上效果确实挺好,但是不知道在真实
2021-02-07 10:02:51    1236    0    0

Learning Generalizable Visual Representations via Interactive Gameplay


Info

  • Conference: ICLR 2021 Oral
  • Cites: 0
  • Github Stars: /
  • Github Solved/Issue: /
  • Author: /

Main Idea

  • 太强啦!!!这真的是发ICLR吗?不发Nature Science吗?
  • 创造了一个虚拟环境,让AI玩类似于 Hide-and-Seek 找东西的游戏,强化学习训练,从而提升视觉试别的泛化能力。
  • title
  • title
  • title
  • title
  • title

Comments

  • 可以看到由于实质上虚拟和真实环境的材质不同导致预测结果并不一定可靠(看那张把茶几识别成地面的),这个时候就需要DA,特别是 Few-Shot DA,让机器人尝试在尽可能真实的环境小玩几把来实现材质对齐。但是现在的 DA 似乎都是假设原模型是一个普通单帧NN,对于这种用强化学习训练出来的复杂结构做DA
2021-02-05 16:56:11    1284    0    0
  • 学习率要随着批大小线性增加
  • *
2021-02-05 16:53:05    1225    0    0

A CHAOS THEORY APPROACH TO UNDERSTAND NEURAL NETWORK OPTIMIZATION

  • 学习率 lr 在很大的一个范围内的时候,SGD 都会周游损失函数地貌里 h0=1/lr 的地方
  • 也解释了 batch size/lr 和泛化性负相关的原因(在 batch size 不变的情况,当 lr 变大时,SGD 探索的地方曲率较小,会找到 flat minina,从而泛化较好)

THE LARGE LEARNING RATE PHASE OF DEEP LEARNING

  • 记 lambda_0 为模型初始化以后 Fisher 信息矩阵的最大特征值,如果模型是线性的,那么当学习率大于 2/lambda_0 时训练就会发散,但是对于非线性的神经网络来说可能结果会不一样。如果学习率小于 2/lambda_0,那么会进入懒惰区 lazy phase,模型几乎一直在一个线性区域里散步,仅仅收敛到初始点附近;而如果学习率大于 2/lambda_0 但小于某个最大临界值(理论推出来是 4/lambda_0,对 ReLU 网络实测大约是 12/lambda_0)时,模型处于弹射区 catapult phase,前几步 loss 越来越大,迭代的点越弹越远,直到找到一片更好的区域(即满足学习率 < 2/lambda_t )时又开始慢慢收敛,并且收敛到 flat minimum,达到最好的收敛效果。当然,如果初始学习率大于弹射的最大临界值,训练就发散了。

REDESIGNING THE CLASSIFICATION LAYER BY RANDOMIZING THE CLASS REPRESENTATION VECTORS

  • 将 softmax 前面的矩阵随机初始化后就固定住,不参与训练(一般情况下这些参数也会参与训练,最终结果是相似的目标类别对应的向量也比较相似。很难说这是一件好事还是坏事,作者认为是坏事)。最终结果是固定这部分权重的模型更鲁棒(使用 A-Softmax 不做 scaling 也可以收敛,对噪声也容忍度更高),因为各个目标类别分得更开。

THINKING LIKE TRANSFORM

2021-01-29 16:30:23    1414    0    0

Deep Neural Network Training without Multiplications


Info

  • Conference: NIPS 2020 WorkShop
  • Cites: 0
  • Github Stars: 0
  • Github Solved/Issue: 0
  • Author: title

MainIdea

  • 用 MagicOperation 代替乘法。
  • title

Results

  • ImageNet ResNet50 73.9%
  • 文章zhen'shi'x
2021-01-29 16:12:29    1425    0    0

Kernel Based Progressive Distillation for Adder Neural Networks

  • 简写为 PKKD, 用 CNN 蒸馏到 AdderNet(ANN) 上。
  • 效果 ImageNet, ResNet-50, 提高0.6%.

AdderSR: Towards Energy Efficient Image Super-Resolution

  • 用在超分辨率上,文章通过给每层 ANN 加一个ShortCut 解决 ANN 学不到恒等映射的问题。