所有文章 > 正文

MEAL V2: 用最简单的方式,训练史上最强ResNet-50, 性能甚至超过了魔改结构的ResNeSt

作者: AMiner科技

时间: 2020-10-29 11:19

一台8卡TITAN Xp,将ImageNet Top-1精度提升到80%以上。

近日,CMU的研究人员在arXiv上放出了一份技术报告,介绍他们如何通过蒸馏(distillation)训练一个强大的小模型。所提出方法使用相同模型结构和输入图片大小的前提下,在ImageNet上的性能远超之前最强的FixRes 2.5%以上,甚至超过了魔改结构的ResNeSt的结果。这也是第一个能在不改变ResNet-50网络结构和不使用外部训练数据的前提下,将ImageNet Top-1精度提升到80%以上的工作,同时对训练要求也不是很高,一台8卡TITAN Xp就足够了。


论文名称:MEAL V2: Boosting Vanilla ResNet-50 to 80%+ Top-1 Accuracy on ImageNet without Tricks
论文地址: https://www.aminer.cn/pub/5f648db691e011f934ad2612
开源地址: https://github.com/szq0214/MEAL-V2


在介绍这个工作之前,首先要简单回顾一下它的最初版本MEAL,其基本的也是核心的思想是将多个teacher网络的知识通过蒸馏的方式压缩进一个student里面,同时它提出使用辨别器(discriminators)作为正则模块(regularization)防止student的输出跟teacher过于相像,从而防止student过拟合到训练集上。MEAL当时在ImageNet上就取得了78.21%的结果,超过原版ResNet-50 1.7%个点。MEAL V2跟MEAL最大的区别在于监督信号的产生方式,如下图:


具体而言,MEAL在每次训练迭代的时候会通过一个teacher选择模块随机选择一个teacher产生监督信号,而在V2中,这个模块被替换成所有teacher的集成,因此每次迭代student接收到的监督信号将会更加强大。同时,V2简化了V1里面的中间层loss,只保留最后一个KL-loss和辨别器,使得整个框架变得更加简单,直观和易用。
通常我们在训练网络的时候会用到很多技巧(tricks),但是在MEAL V2中,这些都是不需要的,作者罗列了他们使用到的和未使用到的一些训练手段,如下表格所示:


从上面表格可以看出来一些常用的数据增强和学习率调节他们都没用到,说明这个框架非常鲁棒和强大,同时也说明了这个框架其实还有很大的提升空间,比如作者进一步加入CutMix数据增强的方法来训练,性能得到了进一步的提升。



作者在论文中展示了如何提升不同网络结构的性能,包括MobileNet V3,EfficientNet-B0等等,从表格3我们可以看到基本在这些网络上都能有2个点以上的提升,所以MEAL V2整个框架其实可以看成是一个后增强的过程,即我们可以先设计和训练一个自己的模型,然后放入MEAL V2的框架中进一步提升它的性能。
文章最后作者给出了一些相关的讨论,包括为什么在做蒸馏的时候不需要使用hard label,辨别器如何帮助优化过程等等,有兴趣的同学可以去看他们的论文原文,这里就不一一赘述了。
最后我们不得不感叹一下,一个四五年前提出的ResNet-50网络居然还能有如此巨大的潜力,性能可以被提升到超越最近很多新设计的网络结构,作者还发现他们最强的student模型的性能其实跟使用的teacher已经非常接近了,这是一个非常神奇的地方,因为student的网络规模要比teacher小很多,但是它居然可以容纳全部teacher的知识(knowledge),这也是一个值得继续讨论和研究的地方。同时我们也不得不反思一下,是否一些新设计的网络结构真的有那么大的进步和贡献,毕竟从MEAL V2的实验结果来看,到目前为止原生的ResNet-50的性能都还没有完全饱和,这也促使我们更理性、客观的去评价其他一些看上去性能很好的模型结构。

AMiner平台由清华大学计算机系研发,拥有我国完全自主知识产权。平台包含了超过2.3亿学术论文/专利和1.36亿学者的科技图谱,提供学者评价、专家发现、智能指派、学术地图等科技情报专业化服务。系统2006年上线,吸引了全球220个国家/地区1000多万独立IP访问,数据下载量230万次,年度访问量超过1100万,成为学术搜索和社会网络挖掘研究的重要数据和实验平台。

 想要加入更多会议和论文分享交流群,请添加“小脉”微信,备注:会议名称/论文加群,即可进入。


二维码 扫码微信阅读
推荐阅读 更多