wuvin
Always take risks!
Toggle navigation
wuvin
主页
实验室的搬砖生活
机器学习
公开的学术内容
公开的其他内容
About Me
归档
标签
友情链接
ZYQN
ihopenot
enigma_aw
hzwer
杨宗翰
High-Performance Large-Scale Image Recognition Without Normalization
2021-02-19 17:43:58
1105
0
0
wuvin
# High-Performance Large-Scale Image Recognition Without Normalization --- ## Info * Conference: ICLR 2021 * Cites: 1 * Github Stars: 6.1k (included with other codes from deepmind) * Github Solved/Issue: 55/95 * Author:  *  --- # Main Idea * 改进了 Batch Normalization, 通过一定的 Scale 和 Clip 代替 BN 从而实现效果提升,应用于自己设计的结构NFNET达到了ImageNet SOTA。 *  * BN 有以下局限:内存占用高、训练Loss和测试Loss差异大、输入样本之间不再独立。 * 同时BN有以下作用:Downscales the residual branch, eliminates mean-shift, has a regularizing effect, allows efficient large-batch training. * 文章采用 Adaptive Gradient Clipping 替代 BN,原本梯度裁剪是: *  * 替代为: *  * 也就是根据原有权重大小来决定裁剪力度(Motivation 是 原来权重的模越小,一个过大的梯度对于权重影响越大)。 *  * 以下是大体网络结构设计,主要来源于 Normalizer-Free ResNets (Characterizing signal propagation to close the performance gap in unnormalized resnets, ICLR 2021). *  --- # Comments * 这个 Adaptive gradient clipping 的观察是很有意思的,因为本来卷积就是点乘,所以如果原本的W很小,梯度即使不大也会对方向产生很大的改变,从而改变个layer的输出内容含义。
上一篇:
20210326周报
下一篇:
TransGAN: Two Transformers Can Make One Strong GAN
0
赞
1105 人读过
新浪微博
微信
腾讯微博
QQ空间
人人网
提交评论
立即登录
, 发表评论.
没有帐号?
立即注册
0
条评论
More...
文档导航
没有帐号? 立即注册