IBM新技术大幅缩短语音识别系统训练时间

行业资讯

46人已加入

描述

据外媒报道,IBM在其新发表的论文《分布式深度学习自动语音识别策略》(Distributed Deep Learning Strategies for Automatic Speech Recognition)中提出了一种分布式处理架构,该架构可以在流行的开源基准测试中使训练速度提升15倍,并且不会损失准确性。该论文作者表示,将其部署在包含有多个显卡的系统上,可以将训练时长从几周的时间减少到几天。

这项工作计划于5月在IEEE声学、语音和信号处理国际会议(ICASSP)上公布。

作为贡献研究人员Wei Zhang、Xiaodong Cui和Brian Kingsbury在博客中写道:“训练像苹果的Siri、谷歌智能助理和亚马逊的Alexa那样的自动语音识别(Automatic Speech Recognition,ASR)系统,需要复杂的编码系统将语音转换为深度学习系统和解码系统能够理解的功能,这些系统可以将输出转换为人类可读的文本。更加复杂的模型将使大规模的训练更加困难。”

该团队的并行化解决方案需要提高批量大小,即可以一次处理的样本数量,而不是不加选择地处理,否则就会影响准确性。他们将批量大小增加到2560个,同时应用一种被称为异步分散并行随机梯度下降(ADPSGD)的分布式深度学习技术。

正如研究人员解释的那样,大多数深度学习模型要么采用同步优化方法,这种方法受到缓慢系统的不成比例的影响,要么采用基于参数服务器(PS)的异步方法,这种方法往往会导致模型不太精确。相比之下,ADPSGD(IBM于2018年在一篇论文中首次详述的)是异步和分散的,它保证了模型准确性的基线水平,并为某些类型的优化问题提供了加速。

在测试中,该论文的作者表示,ADPSGD将ASR作业的运行时间,从单个V100图形处理器系统上的一周缩短到32图形处理器系统上的11.5小时。ADPSGD留给未来工作算法的时间,可以处理更大的批量和系统优化更强大的硬件。

Zhang、Cui和Kingsbury写道:“在半天内完成训练工作是可取的,因为它使研究人员能够快速迭代开发新的算法。这也可以使开发人员快速调整现有模型以适应他们的应用,尤其是在需要大量语音以实现稳健性和可用性所需的高精度的自定义用例中。”

训练自然语言理解模型不仅需要强大的硬件基础以及数千小时语音和数以百万的文本单词的语料库,而且整个训练过程中所耗费的时间也是非常漫长的。可以说IBM提出的分布式处理架构大大减轻了计算负担。

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分