Learning and Transferring Mid-Level Image Representations using Convolutional Neural Networks gaunthan Posted on Mar 7 2018 ? Deep Learning ? ? Paper Notes ? ? Image Classification ? ? Computer Vision ? ## Summary 该论文揭露了在大规模数据集(ImageNet dataset)上训练的神经网络,可以高效地迁移到其他小数据集(PASCAL VOC 2007/2012 dataset)上。论文通过对PASCAL VOC图片进行sliding处理,解决了两个数据集之间存在的"dataset label bias"问题。论文提供了一种简单有效的迁移方法,并对迁移结果进行了实验考察。结果表明,使用迁移的特征比重新训练往往能获得更好的表现。 ## Transferring ### Network architecture 论文首先在ImageNet数据集上训练好AlexNet(18%的top5 error rate,而在AlexNet的发表论文中是17%),然后将C1~C5,FC6和FC7原样复制,并在最后添加多两层FC。注意复制的这几个网络层的值时固定的,后续在小数据集上训练时也不会被更改。  ### Sliding windows strategy ImageNet的标注图片,object都是居中显示的;而PASCAL VOC中object则处于一个更复杂的背景下。见下图:  两个数据集图片之间存在的这种不一致性,被称为"dataset capture bias",可能导致迁移学习的效果非常差。而且PASCAL VOC中,一张图片可能存在多个object,甚至有些object在ImageNet数据集中没出现过。 因此论文先对PASCAL VOC中的图像进行分割处理。使用8种尺寸的滑动窗口,对图片进行分割。分割后的图片还要进行overlap检测。  ## Experiments ### on VOC 2007 在VOC 2007数据集上,迁移学习使得分类结果得到大幅度的提升:  ### on VOC 2012 但在VOC 2012上,表现就没有这样好的。20个类别中,只有5个是表现更优的,而且平均来说性能下降了4%(在PASCAL VOC中有 20 种物体分类,另外一个background分类)。 为了突出迁移带来的提升效果,论文直接在该数据集上重新训练一个CNN,而该CNN的分类性能下降了8%。  ### source/target class overlap 论文通过在ILSVRC-2012 dataset中移除/增加类别,探究两个数据集的类别重叠对学习结果的影响。结果表明,重叠类别的数量以及它们的训练样本数,对迁移结果有着决定性的作用。 也就是说,预训练数据集越大、类别越多,迁移学习的结果往往更好。 ## Conclusion 迁移学习是可行的,并且往往能够取得更好的表现。 赏 Wechat Pay Alipay Install Nvidia driver, CUDA 9.1 and Tensorflow 1.5 on Fedora 27/28 研究生生存手册