谷歌 | AI再突破,Efficientnets有望成为计算机视觉任务的新基础!

DR2b_Aiobservat 2019-06-04 2408

电子说

1.2w人已加入

描述

谷歌人工智能研究部门的科学家认为Efficientnets通过宽度、深度、分辨率三个维度的复合扩展，展现出比现行的CNN更高的精度和效率，将成为未来计算机视觉任务的新基础。

卷积神经网络（CNN）作为人工神经网络的一种，是当下语音分析和图像识别领域的研究热点。

它的人工神经元可以响应一部分覆盖范围内的周围单元，所以对于大型图像处理有出色表现，但是如果要某一点上提高准确性，就需要进行较为繁琐的优化调整。

针对这一现象，谷歌人工智能研究部门的科学家正在研究一种“更结构化”的方式，用以“缩放”CNN，期望获得更好的精度和效率。

最近，他们在Arxiv.org上发表的一篇论文（EfficientNet : Rethinking Model Scaling for Convolutional Neural Networks）并附带了一篇博客文章中对其进行描述。他们声称，这个被称为“Efficientnets”的AI系统，超过了最先进的精度，并且提升了10倍的效率。

这篇论文的作者工程师Mingxing Tan 和谷歌人工智能首席科学家Quocv.le都来自谷歌大脑。

他们认为，模型缩放的传统做法是任意增加CNN的深度或宽度，或者使用更大的输入图像分辨率进行训练和评估。区别于传统方法，他们采用了一组固定的缩放系数来均匀缩放每个尺寸。

图中最右侧就是他们的方案，在宽度、深度、分辨率三个维度进行复合扩展。单一调整一个维度能够获得精度提升，但是随着参数调的越大，精度增益越平滑，改进将会不明显。而联合调整就能够获得相对更好的精度增益曲线。

计算机视觉

那么，它是如何做到的呢？

首先，在固定的资源约束下，通过进行栅栏搜索，识别基线网络不同维度之间的关系。例如，增加两倍的FLOPS。这决定了每一个维度适当的缩放系数，将应用于基线网络缩放至需要的模型尺寸或者计算预算。为了进一步提高性能，科研人员提出了一种新的基线网络，即MBConv，可以为EfficientNets模型体系提供种子。

在测试的过程中，Efficientnets展现出比现行的CNN更高的精度和效率，将参数大小和FLOPS减少了一个数量级。

其中，Efficientnet-B7比CNNgpipe小8.4倍，快6.1倍，分别在imagenet中上达到了Top-1（84.4%）和Top-5（97.1%）的精度。与resnet-50相比，EfficientNet-B4使top-1精度从ResNet-50的76.3%提高至82.6%。

计算机视觉

EfficientNets在其他数据集的表现也很好。在5/8的广泛使用的转移学习数据集中，EfficientNets都达到了最先进的精度，并且减少了21个参数。例如，CIFAR-100（91.7％）和Flowers（98.8％），这也表明EfficientNets有很好地转移。

两位作者表示，通过对模型效率的显著改进，EfficientNets有可能成为未来计算机视觉活动的新基础。他们开源了所有EfficientNet模型，希望这些模型可以使机器学习社区受益。

打开APP阅读更多精彩内容