为什么他却说“深度学习框架之争,现在谈结果为时尚早”?

电子说

1.2w人已加入

描述

半个多世纪前,浙江大学老校长竺可桢曾有两个非常经典的教育问题:“诸位在校,有两个问题应该自己问问,第一,到浙大来做什么?第二,将来毕业后做什么样的人?”

半个多世纪后,以这位老校长名字命名的 “竺可桢学院” 求是科学班开启了一位少年的求是之路。他就是本期采访的主人公——彭靖田。

作为 5 月 25 日 - 5 月 27 日即将在杭州举办的 CTA 大会(官网:https://dwz.cn/iSZ7BQUR)机器学习论坛演讲嘉宾,彭靖田以谷歌技术专家的身份接受了 AI 科技大本营的采访。

彭靖田,Google Developers Expert

谷歌技术专家(Google Developers Expert,GDEs)是这么定义的:来自全球各地经验丰富的产品策略师、设计师、开发人员和营销专家,积极支持开发人员、初创企业和公司以通过 web 应用程序和移动应用程序来改变这个社区;面向 Android、Angular、Dart、Flutter、谷歌云平台、IOT、机器学习、web 开发等多个技术方向。

这么说起来,彭靖田与谷歌、与机器学习的渊源由来已久。

编程始于兴趣,终于成长

从中学时代的信息学奥林匹克竞赛(OI)起,彭靖田就开始接触编程和算法了。与绝大多数同龄人相比,这已经非常早了,他却自嘲:“我们班很多人小学 3 年级就开始编程,如今也在很多世界名校继续攻读 PhD”。相比起来,彭靖田在求是班反倒是接触最晚的了。

彭靖田借用了一句老话,“兴趣是最好的老师”。“可能我还是觉得 CS 这个学科本身比较有意思吧。高中阶段带给我启蒙的主要是靠《算法导论》、 USACO 题库、《浪潮之巅》,它们分别让我窥见了算法、编程和行业历史。”

光荣与梦想,伟大不是终点

大学毕业后,彭靖田顺利拿到 Special Offer 进入华为中央软件研究院。期间,他主要参与了深度学习云服务的设计和实现,当时的主要需求是支撑分布式机器学习训练和在线推理服务。

他想,如果抽象 TensorFlow 为一种容器作业,并基于 Kubernetes 在容器调度方面的优势,或许是一种实现路径吧?说干就干,很快,彭靖田与同事一起开发了 DLKS (Deep Learning Kubernetes Scheduler)项目。

一年后,彭靖田加入当时在容器技术领域颇有深耕的才云科技,主要负责 AI 云业务线。但如何将容器集群管理技术 Kubernetes 与深度学习框架 TensorFlow 结合也同样存在不小的挑战。2018 年初,彭靖田与 Google Cloud 一拍即合,决定参与到开源项目 Kubeflow 的推进中来。

要知道,尽管在当时 TensorFlow 已是主流深度学习框架之一,被广泛应用于国内外科技企业,但它也存在某些缺陷。作为 Google 在 2017 年推出的开源项目 Kubeflow,旨在支持多种机器学习框架如 TensorFlow、PyTorch、Caffe 运行在 Kubernetes 之上。

“这个项目的使命更加远大,一开始我们就希望它能够充分利用 Kubernetes 的优势,不仅支持 TensorFlow,还可以支持所有基于数据流图(Dataflow)的机器学习框架。”

将机器学习革命推进到底

2017 年下半年,一次偶然的机会,彭靖田开始了解到 Machine Learning GDE 这个项目。“那会儿国内应该还没有 ML GDE,才开始推广。” 

彼时,他正与林健、白小龙合作撰写《深入理解 TensorFlow:架构设计与实现原理》这本书。抱着希望能够跟 Google TensorFlow 和 Google Brain 团队有更多交流和联系的想法,彭靖田申请了这个项目。

谈起这段经历,他仍记忆犹新,“第一轮面试是法国的一位 ML GDE,第二轮是 Google Cloud 东京团队的 Kaz Sato,过程很顺利。” 

“不要总看模型准确率有多高,分布式规模有多大,而是要先了解业务本身,再根据已有资源设计相应的解决方案。”如今,不少企业正尝试搭建自己的机器学习云平台,在此过程中,却又因缺乏人才而不免踩坑。

实际上,Google 一直在追求人工智能教育的普及,包括开放了 TensorFlow 这样的高级项目。而如何帮助企业基于 Google 生态真正实现智能转型升级,是彭靖田这样的机器学习专家们正积极推动的事情。

以下为此次访谈实录:

AI 科技大本营:从华为深度学习团队核心成员,到才云 Cloud AI 负责人,按照您核心技术路线的变迁角度来讲,离不开基于 Kubernetes 作为机器学习部署平台的思路。能否讲讲您是如何认识到 Kubernetes 与 AI 结合的优势的?过去几年,您认为该项技术在落地应用方面又发生了怎样的显著改变?

彭靖田:准确来说,Kubernetes 之于 AI 不仅是部署,还是基础设施(Infrastructure)。KDD 2017 年 收录的《TFX: A TensorFlow­ Based Production ­Scale Machine Learning Platform》这篇论文给了我们一个很好的洞见。对于 Google 这样拥有海量数据的公司来说,从 Mining 到 Learning,最后商业落地是一个顺其自然的过程。不过,要想充分利用数据和模型,我们需要一个能够支撑它的端到端机器学习平台。

例如,Google 内部多年以来使用 Borg(大型集群管理系统),基于 TensorFlow 打造这个平台很稳健,也很高效,但对于 Google 的外部用户来说,我们认为 Borg 可行的替代方案是 Kubernetes。事实证明,这条路还是可以走通的,虽然前路还有一些乌云。

跳出 AI 云或者机器学习平台这个场景,云计算的技术变革趋势已经非常明朗,而 Kubernetes 的技术先进性和生态使得我们现在可以更聚焦于应用本身,而不再是基础设施、软件构建和发布、网络负载均衡等问题。现在已经有很多企业在生产环境使用 Kubernetes,国内规模最大的应该是京东。

AI 科技大本营:目前,越来越多的企业开始在分布式机器学习云平台上进行相关部署,您认为企业在做这一类的落地时需要注意哪些问题?如企业如何选择适合业务的平台和模型。

彭靖田:据我理解,应该是越来越多企业在尝试搭建自己的分布式机器学习云平台,而不是部署。

谈到落地,我觉得绝大部分的矛盾和分歧是 “需求没有理清楚”。现在这个行业最缺的就是既懂 AI 技术,又清楚业务场景的人才。企业应该多跟客户聊一聊需求,而不是一味讲“模型准确率有多高,分布式规模有多大”。客户更多关心的是技术是否解决问题。因此,正如你说的,先了解业务本身,再根据已有资源设计解决方案(包括算法、端到端模型、平台等)。

AI 科技大本营:据您的观察,目前什么类型的企业最先搭建了自己的机器学习平台?在这个过程中,会遇到哪些挑战?利用分布式机器学习平台会成为未来企业进行技术部署的主流趋势吗?

彭靖田:拥有数据的大企业,更确切的讲,是希望挖掘数据背后价值,洞察客户真实需求的大企业,如 Google、Uber、华为、京东等最先搭建了自己的机器学习平台。

挑战是多方面的,搭建一个类似于 TFX 这样的平台,需要企业具备从硬到软的技术实力。比如 Google 和华为都在研发自己的 AI 芯片、编译器、框架和平台,这其中的难度和挑战不言而喻。

在我看来,IT 到 DT 一定是未来趋势。互联网浪潮下,我们能看到整个原子世界都在不断被数字化。机器学习就是数据驱动的学科。未来所有的人和所有的行为都会被记录下来,这背后的商业价值是巨大的。相信看过美国科幻电视剧《西部世界》的朋友会有这个洞察。

AI 科技大本营:您针对 TensorFlow 撰写了相关著作,并开发了一个专门的视频课程,您认为相比于现有的其他框架 (如 PyTorch 等),TensorFlow 的优势在体现在哪里?深度学习框架之争,最后会是什么结果?

彭靖田:TensorFlow 的优势主要体现在高性能、灵活、对大规模分布式训练的支持等。目前,TensorFlow 对于 Senior 用户来说,足够定制化,满足了很多商业落地场景;但它也存在劣势,学习曲线对 Junior 用户不太友好,这也是 TensorFlow 2.0 要解决的重要问题。

现在谈结果还为时尚早。AI 落地是未来三年里所有从业人努力的方向,而这也是真实需求定义框架的未来。互联网(web 开发)和移动互联网(Android)的爆发,我们看到 Java 找到了自己的路。

现在的争斗都是暂时的,是学术圈和小部分产业界的存量博弈。在 AI 大规模落地前,我们不知道框架会走向何处。

AI 科技大本营:对于希望入门机器学习并使用 TensorFlow 的学习者,您有哪些入门和进阶的建议?

彭靖田:可以看看我在知乎 “ 如何高效地学习 TensorFlow 代码?” 问题的回答。(链接:

https://www.zhihu.com/question/41667903/answer/123150582)

简单来讲,还是搞清楚自身需求。你未来想成为做算法模型的、做平台的、做落地应用的,还是什么?当这个问题明确,你就知道应该深入了解 TensorFlow 的哪一层了。

AI 科技大本营:不久前竺可桢学院图灵班也开始公布招收首批人工智能本科班,如何评价浙江大学在人工智能教育以及科研方面的优势地位?

彭靖田:据我了解竺院上一届混合班 2/3 的学生选择了 CS,浙大 CS 这一届申请名校 PhD 的整体成绩也不错,看见母校越来越强很开心。谈到优势,我个人认为还是自由的学术氛围和优秀的教学资源吧。浙江大学里有很多院士带领学生做前沿课题,也有诸如像 MOOC 中国著名网红老师翁恺这样的优秀教学队伍可以进行一线教学指导。本科教学也一直紧跟美国名校的教学模式,相信浙大的同学都有体会。

AI 科技大本营:那么,在本次机器学习专场中,您会针对哪方面的内容和大家进行分享?

彭靖田:来 CTA,与我们一起聊聊 AI 的技术与落地。本次演讲,我将向大家介绍如何使用 TensorFlow 2.0 Alpha 快速开发和部署机器学习模型。同时,我将介绍如何实现 TensorFlow 1.x 和 2.0 模型之间的快速转换。最后,我将介绍 TensorFlow 和 AI 为民服务的落地案例。

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分