关于实时语音转写技术的分析和介绍

讯飞开放平台 2019-09-27 5699

描述

其中，整理会议记录绝对是最让人无奈的加班原因之一。1个小时的讲话内容整理起来却能耗费3-4小时的时间，然后很多会议都是3小时起步的……

不要悲伤，不要哭泣，因为讯飞开放平台已经上线了讯飞听见的明星产品——实时语音转写技术啦！

1让信息录入即时高效

信息爆发时代，有效率有质量地整理视频、音频、文字等信息变得尤为重要。会议，培训，采访等场景均需要形成完整的文字记录材料，音视频文件也需要配有字幕。

讯飞实时语音转写技术通过WebSocket协议，建立应用与语音转写核心引擎的长连接，将音频流数据实时转换成文字流数据结果。实现即时对语音内容的识别，展现对应文字内容。

同时，讯飞实时语音转写技术的识别引擎采用拥有科大讯飞自主研发全新推出的深度全序列卷积神经网络（DFCNN，Deep Fully Convolutional Neural Network）识别框架。使用大量的卷积层直接对整句语音信号进行建模，更好的表达了语音的长时相关性，比学术界和工业界最好的双向递归神经网络(BRNN,Bi-directional Recurrent Neural Network）的语音识别系统识别率提升了 15%以上。同时结合讯飞的 HPC 平台和多 GPU 并行加速技术，训练速度也优于传统的双向 LSTM CTC 系统。

借助讯飞听见实时语音转写技术，不仅能极大减轻开头所说的整理会议内容的耗时耗力问题，还能应用在更多场景中：

学术讲座：在嘈杂的现场，让演讲者的话可视化；

课程培训：重点内容随讲随记，帮助反应理解；

电视直播：生成字幕，使得听障人士可以了解画面内容；

客服电话：记录客户话语，帮助服务人员更好应答。

2讯飞实时语音转写技术优势

在实时生成文字内容的同时，讯飞实时语音转写技术还能满足你的四个愿望：

我希望有更高的准确率

实时语音转写基于深度全序列卷积神经网络框架，语音识别技术全球领先，在安静环境，普通话标准下转写准确率可达95%以上。

我希望转写结果表达清晰

讯飞实时语音转写技术具有上下文纠错功能。在一句话结束之后，针对上下文进行语义理解，将转写过程中的语音识别结果进行智能纠错，确保识别的准确性。

我希望时间和数字等转写准确

讯飞实时语音转写可以进行文法格式智能转换：对结果中出现数字、日期、时间等内容，将它们格式化成规整的文本，例如“五点三十”引擎会识别规整为“5:30”。

我希望文本断句和加标点更轻松

运用超大规模的语言模型，让讯飞实时语音转写技术可以智能预测语境，提供智能断句和标点符号的预测。

讯飞听见APP实时语音转写

3讯飞实时语音转写技术案例

通过实时语音转写技术，讯飞听见为博鳌亚洲论坛、世界制造者大会、全球INS大会等大型会议、论坛的活动内容的记录、整理提供了极大的支持。

讯飞听见支持“博鳌论坛21世纪海上丝绸之路岛屿经济论坛”

打开APP阅读更多精彩内容