Daniel Povey：Kaldi 核心算法 K2 0.1 版本已发布

时光月 2020-11-16 2020

电子说

1.4w人已加入

11月15日讯，在第五届Kaldi技术交流会上，Kaldi之父Daniel Povey博士与来自北京各大互联网公司、知名高校的开发者们深入交流下一代Kaldi社区未来的发展。

Daniel Povey博士目前担任小米集团语音首席科学家，由他开发和维护Kaldi 集成了多种语音识别模型，是业界语音识别框架基石。加入小米一年，Daniel Povey设计并开发出了新一代Kaldi。新一代Kaldi分成三个部分，包括核心算法部分，训练数据准备部分、示例脚本集合部分。

据介绍，其中，Lhotse（训练数据准备部分）将替代以前Kaldi中所有数据准备相关的工作，操作各种音频和文本的元数据。Lhotse除了Kaldi本身，也适用于其他应用。而且Lhotse纯Python代码，方便易用。

Icefall（示例脚本集合部分）将代替Kaldi中的示例脚本集合，并独立成为一个单独的子项目。之所以要把示例脚本集合与核心算法分开，是考虑到示例脚本可能会非常庞大，且经常变动。

新一代Kaldi的核心部分叫“k2”。k2可以让开发者很容易在PyTorch/TensorFlow中实现各种语音识别相关算法，比如CTC、LF—MMI、RNN—T、2nd—pass语言模型等，消除以往语音识别算法中训练跟解码不匹配的问题。同时，通过k2可以实现（置信度逐渐提高的）多轮解码过程。

Daniel Povey博士透露，k2核心代码已完成。约41000行代码（主要是C++），本周刚发布0.1版本。他在本次线下活动中强调：“今天有太多人依托Kaldi在做自己的事业，有很多人为Kaldi社区一直在做贡献，Kaldi会始终坚持开源。”

小米集团副总裁、技术委员会主席崔宝秋指出，拥抱开源是小米工程文化的重要组成部分。崔宝秋在接受蓝鲸TMT记者专访时表示，Kaldi的一些语音技术与代码已经在一些小米的产品线使用，未来其语音技术将在小米的手机、音箱、电视以及更多智能家居与智能穿戴设备中使用，小米非常重视语音技术。

责任编辑：PSY

打开APP阅读更多精彩内容