谷歌重磅开源NLP通用框架，20多篇最新论文都用了它

电子工程师 2019-03-26 872

人工智能

641人已加入

描述

来源：互联网 (转载协议) 发布日期：2019-02-26 17:22 浏览：4126次专栏投稿值班编辑：QQ281688302

新智元报道来源：TensorFlow 作者：Jonathan Shen 编辑：肖琴【新智元导读】谷歌近日开源了一个强大的NLP深度学习框架Lingvo，侧重于语言相关任务的序列模型，如机器翻译、语音识别和语音合成。过去两年来，谷歌已经发表了几十篇使用Lingvo获得SOTA结果的

赞助本站

新智元报道

来源：TensorFlow

作者：Jonathan Shen 编辑：肖琴

【新智元导读】谷歌近日开源了一个强大的NLP深度学习框架Lingvo，侧重于语言相关任务的序列模型，如机器翻译、语音识别和语音合成。过去两年来，谷歌已经发表了几十篇使用Lingvo获得SOTA结果的论文。

近日，谷歌开源了一个内部 NLP 的秘密武器 ——Lingvo。

这是一个强大的 NLP 框架，已经在谷歌数十篇论文的许多任务中实现 SOTA 性能！

Lingvo 在世界语中意为 “语言”。这个命名暗指了 Lingvo 框架的根源 ——它是使用 TensorFlow 开发的一个通用深度学习框架，侧重于语言相关任务的序列模型，如机器翻译、语音识别和语音合成。

Lingvo 框架在谷歌内部已经获得青睐，使用它的研究人员数量激增。过去两年来，谷歌已经发表了几十篇使用 Lingvo 获得 SOTA 结果的论文，未来还会有更多。

包括 2016 年机器翻译领域里程碑式的《

谷歌神经机器翻译系统

》论文 (Google’s Neural Machine Translation System: Bridging the Gap between Human and Machine Translation)，也是使用 Lingvo。该研究开启了机器翻译的新篇章，宣告机器翻译正式从 IBM 的统计机器翻译模型 (PBMT，基于短语的机器翻译)，过渡到了神经网络机器翻译模型。该系统使得机器翻译误差降低了 55%-85% 以上，极大地接近了普通人的翻译水平。

除了机器翻译之外，Lingvo 框架也被用于语音识别、语言理解、语音合成、语音 - 文本转写等任务。

谷歌列举了 26 篇使用 Lingvo 框架的 NLP 论文，发表于 ACL、EMNLP、ICASSP 等领域顶会，取得多个 SOTA 结果。全部论文见文末列表。

Lingvo 支持的架构包括传统的RNN 序列模型、Transformer 模型以及包含 VAE 组件的模型，等等。

谷歌表示：“为了表明我们对研究界的支持并鼓励可重复的研究工作，我们公开了该框架的源代码，并开始发布我们论文中使用的模型。”

此外，谷歌还发布了一篇概述 Lingvo 设计的论文，并介绍了框架的各个部分，同时提供了展示框架功能的高级特性的示例。

相关论文：

https://arxiv.org/pdf/1902.08295.pdf

强悍的贡献者列表 ——91 位作者！

摘要

Lingvo 是一个 Tensorflow 框架，为协作式深度学习研究提供了一个完整的解决方案，特别侧重于 sequence-to-sequence 模型。Lingvo 模型由灵活且易于扩展的模块化构建块组成，实验配置集中且高度可定制。该框架直接支持分布式训练和量化推理，包含大量实用工具、辅助函数和最新研究思想的现有实现。论文概述了 Lingvo 的基础设计，并介绍了框架的各个部分，同时提供了展示框架功能的高级特性的示例。

为协作研究设计、灵活、快速

Lingvo 框架概览：概述了如何实例化、训练和导出模型以进行评估和服务。

Lingvo 是在考虑协作研究的基础下构建的，它通过在不同任务之间共享公共层的实现来促进代码重用。此外，所有层都实现相同的公共接口，并以相同的方式布局。这不仅可以生成更清晰、更易于理解的代码，还可以非常简单地将其他人为其他任务所做的改进应用到自己的任务中。强制实现这种一致性的代价是需要更多的规则和样板，但是 Lingvo 试图将其最小化，以确保研究期间的快速迭代时间。

协作的另一个方面是共享可重现的结果。Lingvo 为检入模型超参数配置提供了一个集中的位置。这不仅可以记录重要的实验，还可以通过训练相同的模型，为其他人提供一种简单的方法来重现你的结果。

Lingvo 中的任务配置示例。每个实验的超参数都在它自己的类中配置，与构建网络的代码分开，并检入版本控制。

Hierarchical Generative Modeling for Controllable Speech Synthesis.Wei-Ning Hsu, Yu Zhang, Ron J. Weiss, Heiga Zen, Yonghui Wu, Yuxuan Wang, Yuan Cao, Ye Jia, Zhifeng Chen, Jonathan Shen, Patrick Nguyen, Ruoming Pang. Submitted to ICLR 2019.

Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis.Ye Jia, Yu Zhang, Ron J. Weiss, Quan Wang, Jonathan Shen, Fei Ren, Zhifeng Chen, Patrick Nguyen, Ruoming Pang, Ignacio Lopez Moreno, Yonghui Wu. NIPS 2018.

Natural TTS Synthesis By Conditioning WaveNet On Mel Spectrogram Predictions.Jonathan Shen, Ruoming Pang, Ron J. Weiss, Mike Schuster, Navdeep Jaitly, Zongheng Yang, Zhifeng Chen, Yu Zhang, Yuxuan Wang, RJ Skerry-Ryan, Rif A. Saurous, Yannis Agiomyrgiannakis, Yonghui Wu. ICASSP 2018.

On Using Backpropagation for Speech Texture Generation and Voice Conversion.Jan Chorowski, Ron J. Weiss, Rif A. Saurous, Samy Bengio. ICASSP 2018.

Speech-to-text translation

Leveraging weakly supervised data to improve end-to-end speech-to-text translation.Ye Jia, Melvin Johnson, Wolfgang Macherey, Ron J. Weiss, Yuan Cao, Chung-Cheng Chiu, Naveen Ari, Stella Laurenzo, Yonghui Wu. Submitted to ICASSP 2019.

Sequence-to-Sequence Models Can Directly Translate Foreign Speech.Ron J. Weiss, Jan Chorowski, Navdeep Jaitly, Yonghui Wu, and Zhifeng Chen. Interspeech 2017.

https://github.com/tensorflow/lingvo/blob/master/PUBLICATIONS.md

开源地址：

https://github.com/tensorflow/lingvo

打开APP阅读更多精彩内容