wuvin
Always take risks!
Toggle navigation
wuvin
主页
实验室的搬砖生活
机器学习
公开的学术内容
公开的其他内容
About Me
归档
标签
友情链接
ZYQN
ihopenot
enigma_aw
hzwer
杨宗翰
RETHINKING THE VALUE OF NETWORK PRUNING
? Network Pruning ?
2020-06-06 11:05:30
1044
0
0
wuvin
? Network Pruning ?
# RETHINKING THE VALUE OF NETWORK PRUNING Abstract: NN 剪枝保留重要权重这件事情中,权重并不重要,重要的是剪枝完后的网络结构主要决定了准确度。 > 1) training a large, over-parameterized model is often not necessary to obtain an efficient final model, 2) learned “important” weights of the large model are typically not useful for the small pruned model, 3) the pruned architecture itself, rather than a set of inherited “important” weights, is more crucial to the efficiency in the final model, which suggests that in some cases pruning can be useful as an architecture search paradigm. 剪枝一般的pipline: ![title](https://leanote.com/api/file/getImage?fileId=5edb0909ab644134450011b2) 文章结论1: Fine-tuning 基本没用。重训可以得到一样的效果。 ![title](https://leanote.com/api/file/getImage?fileId=5edb0a12ab644134450011bc) ![title](https://leanote.com/api/file/getImage?fileId=5edb0a50ab64413232001160) ![title](https://leanote.com/api/file/getImage?fileId=5edb0a5aab64413232001161) ![title](https://leanote.com/api/file/getImage?fileId=5edb0a7aab64413232001162) 后面实验都差不多,遍历了一遍所有主流剪枝方法,同样差不多的比较,结论一致。 ![title](https://leanote.com/api/file/getImage?fileId=5edb0b01ab644134450011c7) 这样的方法可以用于评估哪个剪枝方法得到的网络架构更好。 # (ICLR 2019 best paper)THE LOTTERY TICKET HYPOTHESIS: FINDING SPARSE, TRAINABLE NEURAL NETWORKS ![title](https://leanote.com/api/file/getImage?fileId=5ee0c088ab64412a380024e0) ![title](https://leanote.com/api/file/getImage?fileId=5ee0c37dab64412c360025c6) ![title](https://leanote.com/api/file/getImage?fileId=5ee0c493ab64412c360025cf) * 和上一篇基本说的是一个事情,但是多了关于初始化值的研究。 ## 额外的结论 * pruning 后的小网络使用以前的初始化值可以收敛地更快,效果也更好。 * pruning 后的小网络使用以前的初始化值相同step下可以得到和原网络基本一致(甚至更好)的Acc。 * 少量 pruning 之后,原始值重新训,成绩普遍能够有一点提高。 ## Extra Information 根据第一篇的作者在知乎上对第二篇的评价。 * 在unstructured pruning上,当使用小的learning rate时,相比random initialization,winning ticket有帮助;当使用(标准的且accuracy更高的)大learning rate时,winning ticket没有帮助;在L1-norm structured pruning上,不管大小learning rate, winning ticket都没有帮助 * ![title](https://leanote.com/api/file/getImage?fileId=5ee0ca70ab64412c36002608) # Deconstructing Lottery Tickets: Zeros, Signs, and the Supermask * 发现剪枝后其实保留初始化值的符号就可以有不错的测试成绩。 * 几种权值保留方式: * ![title](https://leanote.com/api/file/getImage?fileId=5ee0cd7aab64412a3800256f) * ![title](https://leanote.com/api/file/getImage?fileId=5ee0cd96ab64412c36002629) * 只保留符号 * ![title](https://leanote.com/api/file/getImage?fileId=5ee0cea6ab64412a38002575) * 初始化值直接测试!(我是没想到的) * ![title](https://leanote.com/api/file/getImage?fileId=5ee0d047ab64412a3800258a) * ![title](https://leanote.com/api/file/getImage?fileId=5ee0d108ab64412c3600264a) ## 这说明了什么呢? * Q:为什么剪枝后随机初始化重训会得到差不多的结果? * A:并不是权值一点都不重要,是剪完后的网络结构本身含有大量与最优解相关的信息,而且当前网络结构会促使往该解迭代。那么这意味着——剪枝完后随机重训得到的不同网络会高度相似。 * Q:为什么剪掉一些权值,重训性能能提升? * A: 剪掉少量无用网络同时保留更明确的关于最优解的信息。 * Q: winning ticket 为什么 work? * A: 因为lr小,大概率wi,wf同号,初始值离最优解很近了。 * **所有巧合的背后都是必然** # What can be down in future * 使用可视化方法对以上现象进行可视化。 * 非结构化剪枝的泛化能力(~~多半有人做过了~~ 竟然还没人做)[变差:剪枝后的结构限制了解的空间。变好:剪枝后的结构保留了原有知识] 【应该是少量非结构化剪枝,可以保留一些知识,同时不过多限制解空间】 * 对于不同初始化训练结果,使用非结构化剪枝,然后对于参数空间做可视化,去说明这些解是一样的/不一样的。 # Accelerating Deep Unsupervised Domain Adaptation with Transfer Channel Pruning * 一边剪 Channel 一边 finetune. * ![title](https://leanote.com/api/file/getImage?fileId=5ee188f6ab64416aa700039b) * ![title](https://leanote.com/api/file/getImage?fileId=5ee1893eab64416aa70003a3) * ![title](https://leanote.com/api/file/getImage?fileId=5ee18956ab644168ab0003a1) * 结构化剪枝对于泛化能力影响有限。
上一篇:
COUNTERFACTUAL
下一篇:
KNOWLEDGE CONSISTENCY BETWEEN NEURAL NETWORKS AND BEYOND
0
赞
1044 人读过
新浪微博
微信
腾讯微博
QQ空间
人人网
提交评论
立即登录
, 发表评论.
没有帐号?
立即注册
0
条评论
More...
文档导航
没有帐号? 立即注册