谷歌发布了一系列能改变未来的技术和产品

DPVg_AI_era 2018-05-20 5516

电子说

1.2w人已加入

描述

谷歌I/O大会终于来了。今天的大会上，谷歌有三个值得业界关注的新产品发布：TPU3.0、能让机器人打电话的Google Duplex和Android P。今年谷歌I/O大会，全场都在谈AI，谷歌的AI First战略已经深入到每个产品中。

跟去年一样，7000人来到了谷歌I/O开发者大会现场。

Pichai上场。

Pichai先是讲了谷歌“核心”产品中最大的问题：emoji中的偷工减料问题，比如，汉堡和啤酒表情。

最后它们解决了这两个让人不爽的问题。Pichai只是开玩笑，其实在技术大爆炸的时代，谷歌有更多责任去减少数字鸿沟、承担更多社会责任，而AI提供了一种解决社会问题的途径。

Pichai举了三个AI应用到现实社会中的例子。

第一个例子：AI应用于医疗。

使用深度学习分析视网膜图像，以此预测心血管疾病突发的风险。

谷歌通过在来自284335名患者数据上训练的深度学习算法，能够从12026名和999名患者的两个独立数据集中患者的视网膜图像，以惊人的高准确度预测病人的心血管疾病风险因子。例如，算法通过视网膜图像区分吸烟者与不吸烟者的准确率有71%。

左图：眼球背部图像显示斑疹（中间的黑点），视盘（右侧亮点）和血管（右侧亮点旁的深红线）。右图：视网膜图像呈灰色，使用了深度学习算法的像素可以预测血压（绿色阴影高亮显示）。我们发现每个心血管风险因子预测使用不同模式，例如血管用于血压，视盘用于其他预测。

在Pichai演讲的同时，Google AI也公布了谷歌与斯坦福大学医学院等合作的研究成果“用于电子健康记录的可扩展、准确的深度学习”。

图：病人记录中的数据以时间线的形式表示。

研究人员设计了一个计算机系统来进行预测，而无需为每项任务手动制作新的数据集，并且可以采用可扩展的方式。但构建数据只是工作的一部分; 预测还需要准确。

评估准确性的最常见方法是接收者操作特征曲线（ROC曲线），该曲线衡量模型如何区分具有特定未来结果的患者与不具有特定未来结果的患者之间的区别。在这个度量标准中，1.00表示完美，0.50表示不比随机结果好，因此数字越高意味着模型越准确。谷歌报告的模型预测患者是否会住院的得分为0.86（传统逻辑回归方法得分为0.76）; 在预测住院死亡率方面得分为0.95（传统方法为0.86），在预测出院后意外再住院率方面得分为0.77（传统方法为0.70）。

这些模型也被用来评估患者接受治疗的条件。例如，如果医生为患有高温，发热和咳嗽的患者开具头孢曲松和强力霉素，则该模型可以将这些标识为患者正在接受肺炎治疗的信号。

该研究的一个重点是深度学习模型的可解释性。

图：在患者入院后24小时使用深度学习模型进行预测。

这对患者和临床医生意味着什么呢？机器学习可用于改善医疗，这项工作是一个开始。

Pichai说，AI可以影响的最大的领域是医疗。

第二个例子：声画分离。

当人们在电视上互相交谈时，字幕就会很糟糕。谷歌试图用AI解决问题。

谷歌用一种深度学习音频-视觉模型，用于将单个语音信号与背景噪声、其他人声等混合声音分离开。例如，AI可以通过YouTube帮助谷歌识别谁在说话，即使是在一场争吵比赛中，自动生成字幕。

Pichai说，辩论很好，大喊大叫不好。我希望谷歌能解决人们在电视上互相吼叫的问题。

第三个例子：Gboard。

Pichai介绍了谷歌的输入法Gboard的功能：添加了摩尔斯电码。

谷歌展示了开发者Tania Finlayson的视频。由于疾病，Tania Finlayson无法通过自然声音与其他人交流。视频中，Tania Finlayson通过摩尔斯电码发出了声音。

通过头戴的定制设备，可以分析她的头部的动作并将其转码为摩尔斯电码。当她触发左键时，该设备会添加一个短信号，而右键则会触发一个长信号。接着，设备将文本转换为语音。

谷歌的Gboard用两个区域代表短信号和长信号。键盘上方有多个单词建议，就像普通键盘上的一样。目前，Gboard已经在iOS和Android上提供测试版。Tania也来到了I/O大会现场，受到了大家的热烈欢迎。

谷歌一直在用AI带来改变。

比如Gmail的新功能，这个功能被称为智能组合。

简而言之就是在你输入文字后，谷歌使用机器学习推荐你可能输入的短语。你所要做的就是按Tab键。

Pichai说，它负责处理日常事务，比如地址。“（使用了新功能后）我给公司发了更多的邮件。”

本月晚些时候，所有Gmail用户都将使用智能组合。

接下来是Google Photo。Pichai说，在谷歌的照片中，每天都有超过50亿张照片被观看。它也融入AI技术，比如自动修正亮度。

同时，在谷歌照片中，名为Smart Actions的新智能功能将会识别照片中的人物，比如照片中如果有Lisa，可以把其中关于Lisa的照片发给她。

另外，如果照片曝光不足，在谷歌照片中的人工智能将提供一个建议来修复亮度。谷歌照片可以使用人工智能将照片中的主体分离出来，并在颜色上重新创建一个灰度照片。

并且能够对旧照片着色，这是一个非常有趣的图像识别应用（国内腾讯AI Lab也做过类似的技术）。

最后是文档转换功能，Google Photo能识别文档并将其转换为PDF。这对工作人士非常有帮助。

第一个重磅产品：TPU 3.0，性能是TPU2.0的八倍

接下来，Pichai讲到了重磅部分——TPU 3.0。

Pichai说，3.0的能力是去年芯片的8倍，性能达到100 petaflops。“这些芯片如此强大，以至于我们第一次不得不在我们的数据中心用上了冷却液。”

作个比较，一个包含16个英伟达最新版GPU的芯片组能够提供的计算能力是2 petaflops。

TPU（张量处理器）是谷歌为机器学习定制的专用芯片，专为谷歌的深度学习框架TensorFlow而设计。

谷歌在2016年的I/O大会上首次公布TPU。不过在此之前 TPU已在 Google 内部的一些项目中使用了一年多，如 Google 街景服务、 DeepMind的AlphaGo 等都用到了 TPU。

在去年的I/O大会上，谷歌发布了第二代TPU。第二代 TPU 设备单个的性能就能提供高达 180 teraflops 的浮点运算能力。不仅如此，谷歌还将这些升级版的 TPU 集成在一起成为 Cloud TPU。每个 TPU 都包含了一个定制的高速网络，构成了一个谷歌称之为 “TPU pod” 的机器学习超级计算机。一个 TPU pod 包含 64 个第二代 TPU，最高可提供多达 11.5 petaflops。

Pichai说，谷歌公司第一次不得不在其数据中心采用液体冷却——液体冷却通常用于高性能计算芯片或PC中的一些性能导向的芯片。

值得一提的是，在随后Waymo CEO上台介绍谷歌自动驾驶取得的新进展时，特别强调Waymo自动驾驶系统使用TPU，将性能提高了15倍！

几乎所有大公司都在开发自己的AI定制芯片，这一领域竞争激烈。Facebook的硬件针对其Caffe2框架进行了优化，该框架旨在处理其对用户的大量信息图。亚马逊试图通过AWS构建云基础架构的生态系统。微软则押注比定制芯片更灵活的FPGA，在昨天BUILD大会上公布Project Brainwave，其性能可与定制芯片相媲美，并且实时 AI 能力延迟相比TPU低 5 倍。

Google Duplex：完美与人类沟通，让机器人为你打Call

接下来应该是本次大会的明星产品——Google Assistant。

Google Assistant用到了DeepMind的WaveNet技术，并且能够模拟6个人的声音，而且这六个人的声音听起来相当自然。每个人的声音都有完全不同的效果。

其中还包括歌手John legend的声音。

Google Assistant的更详细的功能交给负责人Scott Huffman介绍。总结有四大亮点：

连续对话

以前唤醒Google Assistant每次都要说“Hey Google”或“OK Google”等热门词汇，现在可以进行更自然的谈话，而无需在每次带助手的句子后触发命令，并且还可以区分何时与其通话或与其他人交谈。Scott Huffman介绍，这个功能将在“未来几周”推出。

多个操作

Google的虚拟助理可以在同一个语音命令中执行同时操作，使用协调减少功能即使使用更长的命令也能准确找出用户的含义。例如，用户可以要求它设置提醒并在一条语音消息中播放。

Pretty Please有点像亚马逊对最近推出的Echo Dot儿童版一样，谷歌助理添加了一些技巧，为用户（特别是孩子）提供了积极的支持。

当孩子们与助理通过礼貌的词语（如Please和Thank You）交谈时，助理会表扬孩子有礼貌，并且还提供免费的适合家庭的内容，包括Google合作伙伴（如迪士尼）的游戏、活动和故事。

Google Duplex

今晚最大的亮点之一就是Google Duplex。

它不仅能够像一般的助理一样安排日程，更重要的是能够以极为类似人声的角色为你操作接下来的行动！

左边是机器人，右边是真人

Pichai演示了为发型设计师助理安排预约餐厅的案例，在视频中，谷歌助理记录下了需求，并真！的！给餐厅打！电！话！了！

Pichai说，机器人打电话的过程是实时的，不是表演的。而餐厅服务员与这个机器人交流完全没有障碍。

这个功能将来会上线。

智能化的Android P

第三个是重要部分是Android P。

Android P有三大特性智能、简洁、Digital wellbeing，其中第一个也是最重要的一个是智能。

智能体现在以下几个方面：

智能适应电池功能。谷歌与DeepMind合作开发了一项名为“自适应电池”的新功能，利用AI来检查用户如何使用手机，并寻找方法来减缓耗电。

具体来说，该功能使用AI来预测用户接下来会使用那些App，以及那些App只会偶尔被打开一下。Android P将不经常使用APP会进入睡眠状态。谷歌表示，这能让App的唤醒次数平均减少30％，得以延长手机的电池续航时间。

智能亮度调节。Android P还通过“自适应亮度”的功能来节省电池寿命。该功能可以根据用户的使用习惯来控制手机屏幕的亮度。例如，如果是白天，手机会自动降低屏幕亮度以节省电量。

自适应电池和自适应亮度两项功能都由DeepMind与谷歌Android团队合作开发。

智能识别用户活动。将最常用或即将使用的应用提前，为用户智能推荐应用。

Slices。在Google搜索中输入相关词汇，如果涉及到手机上的应用，就会出现该应用的相关功能。比如输入Lyft，就会在搜索结果中看到一个应用程序slice，用户可以直接从该页面使用应用功能（类似搜索里的直达号？）

MLKit API接口。第三方App也能即时使用AI模板。

其他产品：地图、媒体、自动驾驶等全部AI化

I/O大会，其实是全面展示Google产品的大会，包括地图、媒体、自动驾驶（Waymo）等。

比如说Google News。

在News首页，谷歌为提供的五个Top新闻，这是全球头条新闻、本地新闻和你一直关注的新闻的最新动态。

然后，你可以切换到标题，看世界各地的头条新闻。这里的附加部分让你深入到不同的主题，如体育、商业或技术。

谷歌推出了一种新的视觉形式叫newscast，它使用自然语言理解提供一个单一主题的文章、视频和引用。这可以让你在短时间内通过浏览不同的源来获得一个事件的基本信息，这样你就可以决定是否要进继续看一个新闻。

如果你想深入到一个特定的话题，谷歌新闻的“Full Coverage”功能可以让你看到一个新闻是如何从不同的地方和多种形式出现的，如社会评论、地方新闻来源、和顶级出版商的报道。谷歌新闻将收集如何实时地讨论和发布新闻，并将它们聚集在一个地方。

自动驾驶方面，Waymo的CEO也上台演讲，现在，Waymo是世界唯一一个有在公共道路上路的Fully Selfdriving Car的公司，已经有超过600万英里的行驶记录。

前文提到，Waymo自动驾驶系统使用TPU，将性能提高了15倍，而使用深度学习也让Waymo自动驾驶有了对比：（上图是使用前，下图是使用后）

至此，谷歌2018I/O大会到此结束，你觉得哪项产品能改变未来？

打开APP阅读更多精彩内容