AutoML新书:AutoML系统背后的基础知识

DPVg_AI_era 2018-10-18 5109

电子说

1.3w人已加入

描述

近期，由Frank Hutter, Lars Kotthoff, Joaquin Vanschoren撰写的新书《AUTOML：方法，系统，挑战》221页的草稿版本已经放出，详细讲解了AutoML系统背后的基础知识，以及对当前AutoML系统进行了深入描述。新书将由NIPS 2018出版发行。

近期，由Frank Hutter, Lars Kotthoff, Joaquin Vanschoren撰写的《AUTOML：方法，系统，挑战》“AUTOML: METHODS, SYSTEMS, CHALLENGES (NEW BOOK)” 221页的草稿版本已经放出，详细讲解了所有AutoML系统背后的基础知识，以及对当前AutoML系统进行了深入描述，Auto-WEKA、Hyperopt-Sklearn、Auto-sklearn等，最后介绍了AutoML的挑战。作者当前正在完成这本新书的编辑工作，它将由NIPS 2018出版发行。

如果你用过机器学习算法，那一定体验被算法调参支配的恐怖。面对错综复杂的算法参数，算法使用者们往往要花费无尽的黑夜去不断尝试，犹如大海捞针。有的时候加班到深夜，终于找到了一个靠谱的参数组合，然而找到的参数组合真的是最优的么？天知道。

然而在搭建机器学习链路的过程中，往往不止调参这一步耗时耗力。好不容易生成了算法模型，怎么把模型部署成服务供手机、PC这些终端调用也是困扰开发同学的一大难题。有的时候，为了打通这样的链路，要耗费整晚的时间调试不同格式的模型和服务端的关联。

在2018年谷歌云全球NEXT大会（Google CloudNext 18）上，李飞飞宣布，谷歌AutoML Vision进入公共测试版，并推出了两款新的AutoML产品：AutoML Natural Language和AutoML Translation。

这个名为Cloud AutoML的宏大项目浮出水面之时，被业内称为“Google Cloud发展的战略转型”——一直以来面向机器学习人工智能开发者的Google Cloud，这次将服务对象转向了普罗大众。

当时这一已经从单纯的视觉拓展到翻译、视频和自然语言处理领域。

谷歌的宏伟愿景由此可见一斑——你只需在改系统中上传自己的标签数据，大能得到一个训练好的机器学习模型。整个过程，从导入数据到标记到模型训练，都可以通过拖放界面完成。

其实在谷歌发布AutoML前后，机器学习自动化的产品风潮已经吹起：2017年底，微软发布CustomVision.AI，涵盖图像、视频、文本和语音等各个领域。今年 1 月，他们又推出了完全自动化的平台 Microsoft Custom Vision Services（微软定制视觉服务）。

此外，另一个比较火爆的AI自动化产品OneClick.AI 是 2017 年底出现在市场上的一个自动化机器学习（AML）平台，其中既包括传统的算法，也包括深度学习算法。同年，国内也出现了不少相关产品，称能够解放算法工程师，让AI自动化。

AutoML 是什么?

传统上，术语AutoML用于描述模型选择和/或超参数优化的自动化方法。这些方法适用于许多类型的算法，例如随机森林，梯度提升机器（gradient boosting machines），神经网络等。 AutoML领域包括开源AutoML库，研讨会，研究和比赛。初学者常常觉得他们在为模型测试不同的超参数时通常仅凭猜测，而将这部分过程的自动化可以使机器学习变得更加容易。即使是对经验丰富的机器学习从业者而言，这一自动化过程也可以加快他们的速度。

业内现存有许多AutoML库，其中最早出现的是AutoWEKA，它于2013年首次发布，可以自动选择模型和超参数。其他值得注意的AutoML库包括auto-sklearn（将AutoWEKA拓展到了python环境），H2O AutoML和TPOT。 AutoML.org（以前被称为ML4AAD，Machine Learning for AutomatedAlgorithm Design）小组，自2014年以来一直在ICML机器学习学术会议上组织AutoML研讨会。

AutoML 有用吗？

AutoML提供了一种选择模型和优化超参数的方法。它还可以用于获取对于一个问题可能性能的基准结果。这是否意味着数据科学家将被取代？并非如此，因为我们知道，机器学习从业者还有许多其他事情要做。

对于许多机器学习项目，选择模型不过是构建机器学习产品复杂过程中的一部分。正如我在上一篇文章中所述，如果参与者不了解项目各个部分是如何相互关联的，那么项目必然会失败。我能想到过程中可能会涉及的30多个不同步骤。我必须要强调，机器学习（特别是深度学习）中最耗时的两个方面是清理数据（这是机器学习中不可或缺的一部分）和训练模型。虽然AutoML可以帮助选择模型并选择超参数，但重要的是，我们仍然要理清有哪些数据科学的技能是需要的以及那些仍未解决的难题。

我将提出一些替代AutoML方法的建议，以使机器学习从业者在进行最后一步时更有效率。

参考文献：

1.https://yq.aliyun.com/articles/629037

2.http://www.fast.ai/2018/07/16/auto-ml2/#auto-ml

3.https://www.automl.org/book/?utm_campaign=NLP%20News&utm_medium=email&utm_source=Revue%20newsletter

AUTOML: METHODS, SYSTEMS, CHALLENGES (NEW BOOK)新书获取地址：

https://www.automl.org/book/

全文目录如下：

第一部分：AutoML方法

本部分包含有关所有AutoML系统背后的基础知识的最新概述。

第1章：超参数优化。由Matthias Feurer和Frank Hutter撰写

第2章：元学习。作者：Joaquin Vanschoren

第3章：神经架构搜索。作者：Thomas Elsken，Jan-Hendrik Metzen和Frank Hutter

第二部分：AutoML系统

本部分包含对各种可用AutoML系统的深入描述，这些系统可用于开箱即用的有效机器学习。

第4章：Auto-WEKA。作者:Lars Kotthoff,Chris Thornton, Holger H. Hoos, Frank Hutter和Kevin Leyton-Brown

第5章：Hyperopt-Sklearn。由Brent Komer和James Bergstra以及Chris Eliasmith撰写

第6章：Auto-sklearn：高效，强大的自动机器学习。作者：MatthiasFeurer，Aaron Klein，Katharina Eggensperger，Jost Tobias Springenberg和Manuel Blum以及Frank Hutter

第7章：自动网络：自动调参的神经网络。由Hector Mendoza和Aaron Klein以及Matthias Feurer和Jost Tobias Springenberg以及Matthias Urban和Michael Burkart以及Max Dippel和Marius Lindauer以及Frank Hutter

第8章：TPOT：自动机器学习的工具。作者：Randal S. Olson和Jason H. Moore

第9章：自动统计学家。ChristianSteinruecken和Emma Smith以及David Janz和James Lloyd以及Zoubin Ghahramani

第三部分：AutoML的挑战

本部分对迄今为止所有的AutoML挑战进行了深入分析。

第10章：分析2015-2018AutoML一系列挑战。由Isabelle Guyon，Lisheng Sun-Hosoya，Marc Boull e，Hugo Jair Escalante，Sergio Escalera以及Zhengying Liu，Damir Jajetic，Bisakha Ray，Mehreen Saeed，Michele Sebag，Alexander Statnikov，Wei-Wei Tu和Evelyne Viegas编写

打开APP阅读更多精彩内容