wuvin
Always take risks!
Toggle navigation
wuvin
主页
实验室的搬砖生活
机器学习
公开的学术内容
公开的其他内容
About Me
归档
标签
友情链接
ZYQN
ihopenot
enigma_aw
hzwer
杨宗翰
2021.2.5 Fast Paper Reading
2021-02-05 16:53:05
1542
0
0
wuvin
# A CHAOS THEORY APPROACH TO UNDERSTAND NEURAL NETWORK OPTIMIZATION * 学习率 lr 在很大的一个范围内的时候,SGD 都会周游损失函数地貌里 h0=1/lr 的地方 * 也解释了 batch size/lr 和泛化性负相关的原因(在 batch size 不变的情况,当 lr 变大时,SGD 探索的地方曲率较小,会找到 flat minina,从而泛化较好) # THE LARGE LEARNING RATE PHASE OF DEEP LEARNING * 记 lambda_0 为模型初始化以后 Fisher 信息矩阵的最大特征值,如果模型是线性的,那么当学习率大于 2/lambda_0 时训练就会发散,但是对于非线性的神经网络来说可能结果会不一样。如果学习率小于 2/lambda_0,那么会进入懒惰区 lazy phase,模型几乎一直在一个线性区域里散步,仅仅收敛到初始点附近;而如果学习率大于 2/lambda_0 但小于某个最大临界值(理论推出来是 4/lambda_0,对 ReLU 网络实测大约是 12/lambda_0)时,模型处于弹射区 catapult phase,前几步 loss 越来越大,迭代的点越弹越远,直到找到一片更好的区域(即满足学习率 < 2/lambda_t )时又开始慢慢收敛,并且收敛到 flat minimum,达到最好的收敛效果。当然,如果初始学习率大于弹射的最大临界值,训练就发散了。 # REDESIGNING THE CLASSIFICATION LAYER BY RANDOMIZING THE CLASS REPRESENTATION VECTORS * 将 softmax 前面的矩阵随机初始化后就固定住,不参与训练(一般情况下这些参数也会参与训练,最终结果是相似的目标类别对应的向量也比较相似。很难说这是一件好事还是坏事,作者认为是坏事)。最终结果是固定这部分权重的模型更鲁棒(使用 A-Softmax 不做 scaling 也可以收敛,对噪声也容忍度更高),因为各个目标类别分得更开。 # THINKING LIKE TRANSFORMERS * 提出了一个计算模型 Restricted Access Sequence Processing Language,可以很优雅地使用这门语言写程序(e.g.: 排序、绘制直方图等),并把程序翻译成相应的 Transformer 模型。有助于进一步理解 Transformer 模型,同时部分解释了 Sandwich Transformer 各个模块的排列顺序,以及一些魔改版 Transformer 在建模上的能力限制。
上一篇:
ML Tricks
下一篇:
Deep Neural Network Training without Multiplications
0
赞
1542 人读过
新浪微博
微信
腾讯微博
QQ空间
人人网
提交评论
立即登录
, 发表评论.
没有帐号?
立即注册
0
条评论
More...
文档导航
没有帐号? 立即注册