Google Assistant的新功能——Duplex双工技术

DPVg_AI_era 2018-07-03 5416

电子说

1.2w人已加入

描述

在6月的1400多篇机器学习相关的文章/项目中，Mybridge甄选了10篇最热文章（入选率0.7％）。主题包括：Google Duplex，网格单元，神经网络，TensorFlow，Keras，第一名解决方案，CVPR 2018等。

在 5 月的 1400 多篇机器学习相关的文章 / 项目中，Mybridge 甄选了 10 篇最热文章（入选率 0.7％）。

此列表中的主题：Google Duplex，网格单元，神经网络，TensorFlow，Keras，第一名解决方案，CVPR 2018 等。

Top 10 文章由 Mybridge AI 选出，综合考虑文章分享数量、阅读时间等，并使用机器学习算法对文章进行排序。相信这些文章分享的机器学习经验和技巧是有用的。

1. Google Duplex：一个通过电话完成真实世界任务的 AI 系统

5 月份最受关注的是谷歌在 I/O 大会演示的 Google Assistant 的新功能——Duplex 双工技术。

利用 Duplex 双工技术，谷歌的智能助理能用非常类似人声的角色完成真实世界的任务。在 demo 中，谷歌 CEO Pichai 告诉听众，“你将要听到的是，谷歌的助理实际地打电话给一家真实的美容院，为你安排一个预约。” 当然，智能助理几乎毫无破绽地完成了任务。虽然后来这个演示是否真实受到一些质疑，但这一技术引发了业界热议。

神经网络

在这篇文章中，谷歌首席工程师 Yaniv Leviathan 和工程副总裁 Yossi Matias 详细介绍了 Google Duplex 使用到的技术，包括：

Duplex 的核心是一个循环神经网络（RNN），使用 TensorFlow Extended（TFX）构建。

使用谷歌自己的自动语音识别（ASR）技术来处理语音，将语音转换为文本。

使用连续文本到语音（TTS）引擎和综合 TTS 引擎（使用 Tacotron 和 WaveNet）的组合，根据情况控制语调。

https://ai.googleblog.com/2018/05/duplex-ai-system-for-natural-conversation.html

2. “换脸术”Deep Video Portraits

Deep Video Portraits 是斯坦福大学、慕尼黑技术大学等的研究人员提交给今年 8 月SIGGRAPH 大会的一篇论文，描述了一种经过改进的 “换脸” 技术，可以在视频中用一个人的脸再现另一人脸部的动作、面部表情和说话口型。

例如，将普通人的脸换成奥巴马的脸。Deep Video Portraits 可以通过一段目标人物的视频（在这里就是奥巴马），来学习构成脸部、眉毛、嘴角和背景等的要素以及它们的运动形式。

论文地址：https://arxiv.org/abs/1805.11714

3. 在人工智能体中使用网格表示进行导航

虽然 AI 在围棋等许多任务超过了人类，空间导航能力对于人工智能体来说仍然是一个巨大的挑战。DeepMind 在 Nature 上发表的一篇论文引起 AI 领域和神经科学领域的极大震撼：AI 展现出与人脑 “网格细胞” 高度一致的空间导航能力。

通过一系列实验操作，研究人员发现网格单元对于基于矢量的导航至关重要。例如，当网络中的网格单元被掐断时，agent 的导航能力就会受损，而且对目标的距离和方向的判断等关键指标的表示变得不那么准确。这项发现有助于 AI 可解释性的研究。

地址：https://deepmind.com/blog/grid-cells

4. 如何用 Python 从头开始构建一个神经网络

这是一个入门教程，初学者可以从这个教程开始，了解深度学习的内部运作。

神经网络是什么呢？许多介绍性文章会将其与大脑进行类比，但如果抛开神经网络和人脑的类比，将其描述为一个给定的输入和一个期望的输出之间的映射的数学函数，会更好理解。

神经网络包含以下元素：

一个输入层 x

任意数量的隐藏层

一个输出层ŷ

每一层之间的一组权重 W 和偏差 b

每个隐藏层的激活函数σ。在这个教程中，使用 Sigmoid 激活函数。

图：一个 2 层神经网络的架构

地址：https://towardsdatascience.com/how-to-build-your-own-neural-network-from-scratch-in-python-68998a08e4f6

5. 对 Airbnb 上的照片进行分类

Airbnb 为数百万的民宿提供了一个平台，也因此获得了一大批民宿的房间细节照片和用户数据。在这个任务中，Airbnb 的数据团队利用计算机视觉和深度学习对民宿房屋照片进行分类。

其目的一方面是将具有相似风格的房源聚集到一起，方便用户浏览。另一方面，分类也可以帮助验证房间数量和房屋信息的准确性。该团队表示，利用这些图片数据，还将发掘出更多潜在的信息。

地址：https://medium.com/airbnb-engineering/categorizing-listing-photos-at-airbnb-f9483f3ab7e3

6. Loc2Vec：用 triplet-loss 网络学习位置嵌入

这是一个以智能手机的传感器数据作为输入，例如加速度计、陀螺仪和位置信息，并从中提取行为洞察的平台，用于了解用户的模式，并能够预测和解释事情发生的原因。

这个平台的一个重要组成部分是场地映射算法（venue mapping algorithm）。venue mapper 的目标是弄清楚你要访问的地点。

地址：http://www.sentiance.com/2018/05/03/loc2vec-learning-location-embeddings-w-triplet-loss-networks/

7. 在浏览器中使用 TensorFlow.js 进行实时人体姿态估计

这是来自 TensorFlow 博客的教程，与谷歌创意实验室合作，发布了 TensorFlow.js 版本的 PoseNet。PoseNet 是一个机器学习模型，可以在浏览器中实时估计人体姿态。

PoseNet 可以利用单姿态或多姿态算法检测图像和视频中的人物，所有这些都可以在浏览器中实现。

PoseNet 的姿态估计分两个阶段进行：

将一个 RGB 图像作为输入，输入给卷积神经网络。

利用单姿态或多姿态解码算法解码来解码模型输出中的姿态、姿态置信度分数、关键点位置和关键点置信度分数。

PoseNet 返回检测到的每个人的置信度值以及检测到的每个姿势关键点。

https://medium.com/tensorflow/real-time-human-pose-estimation-in-the-browser-with-tensorflow-js-7dd0bc881cd5

8. 用 Keras 进行多标签分类

这是一个关于多标签分类的 Keras 教程，包括以下 4 个部分：

讨论多标签分类数据集（以及如何快速构建自己的分类数据集）。

简要讨论 SmallerVGGNet，这是将用来实现多标签分类的 Keras 神经网络架构。

实现 SmallerVGGNet，并使用多标签分类数据集对其进行训练。

最后，在示例图像上测试网络，并讨论一些注意事项

https://www.pyimagesearch.com/2018/05/07/multi-label-classification-with-keras

9. 谷歌地标检索挑战赛：第一名解决方案解读

四个月前，谷歌在 Kaggle 发布了一项地标检索挑战赛（Google Landmark Retrieval Challenge），参赛者被要求在所有图像数据集中检索到含有给定图像中地标的图片。

这篇文章是第一名团队的解决方案总结，包括两个主要部分：

首先，创建一个高性能的全局描述符（global descriptor），它可以将数据集中的图像表示为奇异向量（ singular vector）；

然后，创建一个高效框架，将这些向量和最可能的图像匹配，最后提交到积分榜上。

以下是一个流程图，每一步都标记 LB 分数。

神经网络

https://www.kaggle.com/c/landmark-retrieval-challenge/discussion/57855

10. 学会 “夜视”

这是伊利诺伊大学香槟分校（UIUC）和 Intel Labs 合作的论文，提出一个基于端到端训练的用全卷积网络进行低照度图像处理的模型。这个网络直接处理原始传感器数据，并且基本不使用传统的图像处理流程。

两个大型新数据集

伯克利大学发布大型驾驶视频数据集 BDD100K

神经网络

伯克利大学发布了 BDD100K，这是目前为止最大规模也是最多样化的驾驶视频数据集。这些数据具有四个主要特征：大规模，多样化，在真实的街道采集，并带有时间信息。利用这个数据集，你还可以参加伯克利在 CVPR 2018 举办的自动驾驶竞赛。

地址：http://bair.berkeley.edu/blog/2018/05/30/bdd/

骨骼 X-ray 数据集

Andrew Ng 带领的斯坦福大学 ML 团队发布了一个目前为止最大规模的医学影像数据集 MURA（musculoskeletal radiographs），这个数据集包含 4 万多张多角度射线检测图像，来自对 12173 名病人的 14863 项研究，X 光影像包含人体上肢的 7 个部分：肘、指、小臂、手、肱、肩、腕。最近，该团队推出了基于此数据集的识别挑战赛：MURA 骨骼 X-ray 深度学习竞赛。

打开APP阅读更多精彩内容