电话机器人核心技术之ASR

灵声 2018-05-29 1900

今日头条

1184人已加入

描述

什么是ASR

语音识别技术，也被称为自动语音识别Automatic Speech Recognition(ASR)，其目标是将人类的语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同，后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。

国内发展

我国语音识别研究工作起步于五十年代，但近年来发展很快。研究水平也从实验室逐步走向实用。从1987年开始执行国家863计划后，国家863智能计算机专家组为语音识别技术研究专门立项，每两年滚动一次。我国语音识别技术的研究水平已经基本上与国外同步，在汉语语音识别技术上还有自己的特点与优势，并达到国际先进水平。中科院自动化所、声学所、清华大学、北京大学、哈尔滨工业大学、上海交通大学、中国科技大学、北京邮电大学、华中科技大学等科研机构都有实验室进行过语音识别方面的研究，其中具有代表性的研究单位为清华大学电子工程系与中科院自动化研究所模式识别国家重点实验室。

清华大学电子工程系语音技术与专用芯片设计课题组，研发的非特定人汉语数码串连续语音识别系统的识别精度，达到94.8%（不定长数字串）和96.8%（定长数字串）。在有5%的拒识率情况下，系统识别率可以达到96.9%（不定长数字串）和98.7%（定长数字串），这是目前国际最好的识别结果之一，其性能已经接近实用水平。研发的5000词邮包校核非特定人连续语音识别系统的识别率达到98.73%，前三选识别率达99.96%；并且可以识别普通话与四川话两种语言，达到实用要求。

语音识别系统的三大部分

语音信号预处理与特征提取：语音识别一个根本的问题是合理的选用特征。特征参数提取的目的是对语音信号进行分析处理，去掉与语音识别无关的冗余信息，获得影响语音识别的重要信息，同时对语音信号进行压缩。

声学模型与模式匹配：声学模型通常是将获取的语音特征使用训练算法进行训练后产生。在识别时将输入的语音特征同声学模型（模式）进行匹配与比较，得到最佳的识别结果。

语言模型与语言处理：语言模型包括由识别语音命令构成的语法网络或由统计方法构成的语言模型，语言处理可以进行语法、语义分析。

打开APP阅读更多精彩内容