标签 - NAS

? NAS ?    2020-06-19 15:02:59    924    0    0

DARTS+: Improved Differentiable Architecture Search with Early Stopping

Info

  • Conference: Arxiv
  • Cites: 9
  • Github Stars: -- (paper said it's only need to change few lines of DARTS)
  • Github Solved/Issue: --
  • Author: title

Main Idea

  • Darts + Early Stop
  • After training for a while, Darts will generate too many skip connections which leads to bad performance.
  • title
  • They stop seaching when a sub-block has 2 more skip-connections
  • title

Comments

  • Actually I think this is the same problem as Fair-Nas mentioned before. When early layers learned to discriminate the features, skip connection in late layer will have nice performance than not well trained conv block.
? NAS ?    2020-06-17 10:16:44    956    0    0

GreedyNAS: Towards Fast One-Shot NAS with Greedy Supernet

Info

  • Conference: CVPR 2020
  • Cites: 0
  • Github Stars: --
  • Github Solved/Issue: --
  • Author: title

Main Idea

  • Uniform sampling in NAS is inefficient.
  • First use uniform sampling train for 10K iterations, then use a greedy method that sample m path and keep the best(best on val) k path in pool, sample path in pool with more probability.
  • title
  • title
  • title
? NAS ?    2020-06-09 10:44:13    1160    0    0

ONCE-FOR-ALL: TRAIN ONE NETWORK AND SPECIALIZE IT FOR EFFICIENT DEPLOYMENT

  • 用KD做NAS,从母网络定向裁剪出子网络。
  • 1200 GPU hour

  • 支持不同分辨率,不同深度,不同宽度,不同kernel大小的定制。

  • 分辨率上非常糙,也就是训练的时候,简单缩放一下。

title
title

  • 所有子网络的 forward 和 backward 和 权重 是共享的。

title

title

优势:

  • 比以往的NAS效果好了一点
  • 高度定制化的网络要求,在实际部署上,效果非常好

Random Search and Reproducibility for Neural Architecture Search

  • 这是一篇打脸的文章, 就说现在很多NAS算法比不过随机搜索,还有很多无法复现。
  • 本文复现了大量2019及之前的NAS paper,并对于随即搜索进行了比较。
  • 本文有助于了解,目前哪些NAS是有效的。

可复现性问题

title

title

文章小总结

  • 在超参数搜索上,很少有算法能有效超过两倍时间的随机搜索
  • hyperband
  • ProxylessNAS 真实有效

ProxylessNAS

  • 搜索时间 200 GPU hour.
  • 基础结构参考自 MoblieNet.

  • 每次按概率采样一条路径搜索训练。

  • 实际操作的时候会选择两条路径,每次梯度回传会增大一条路径概率,减小另一条。
    title

  • 把forward延迟也作为Loss的一项

title

Fair NAS

  • One-Shot NAS中初期训练如果训练不当,一部分稍差的网络结构由于没有训练好,所以被选到的概率就更小了,造成恶性循环。
  • 超网的每单次迭代让每一层可选择运算模块的参数都要得到训练
  • 通过不放回采样的方式,保证训练均匀。
  • title
    title

(ICLR 2019) DARTS: DIFFERENTIABLE ARCHITECTURE SEARCH

  • 使得神经网络搜索可微(之前都是evolution or reinforcement learning),从而大幅降低搜索时间。
  • Idea: 把离散的操作变成按概率