标签 - Knowledge Distillation

? Knowledge Distillation ?    2020-06-18 10:38:00    478    0    0

MEAL: Multi-Model Ensemble via Adversarial Learning

Info

  • Conference: AAAI 2019, Oral
  • Cites: 0
  • Github Stars: 116
  • Github Solved/Issue: 4/11
  • Author: title
  • 实测根据github源码无法复现,且效果不及最好的单模型,拉黑作者

Main Idea

  • 怎么看起来有点眼熟
  • 各组 feature level 之间是有不同权重的,后一层权重是前一层权重的10倍。这可能和之前提到的在浅层少量 pretubation 会被逐级放大有关。
  • title
  • 在Discriminator (简单粗暴三层fc)上的Trick(pair相对比较)
  • title
  • 训练的时候是随一个Teacher出来训练。
  • Ablation study
  • title
  • title
  • title

Some Questions

  • 这个三层fc的Discriminator在学什么?
  • 主要和traditional ensemble在比,完全没有和KD methods比。
  • 比较了一下参数,应该是强于 One-the-fly 的。
? Knowledge Distillation ?    2020-06-18 09:55:00    780    0    0

Explaining Knowledge Distillation by Quantifying the Knowledge

Info

  • Conference: CVPR 2020
  • Cites: 0
  • Github Stars: --
  • Github Solved/Issue: --
  • Author: title

Main Idea

  • 利用输入信息的遗忘程度来衡量神经网络中层特征所建模的“知识量”
  • 他们想要说明三个假设:
  • Hypothesis 1:比起直接从数据学习,蒸馏算法往往使得深度神经网络(DNN)学到更多的知识;
  • Hypothesis 2:比起直接从数据学习,蒸馏算法往往使得DNN更倾向于同时学到不同知识;
  • Hypothesis 3:比起直接从数据学习,蒸馏算法往往使得DNN的优化方向更为稳定。
  • 之前有人“Quantifying layerwise information discarding of neural networks”(还是他们组的work) 已经给出了一种网络对于输入信息的丢失程度的度量。所以丢失程度越低的,信息保留越多。
  • title
  • title
  • 学习过程中,知识逐渐增加。
  • title