搜狗率先发布个性化语音识别技术

独爱72H 2019-09-04 1370

音视频及家电

749人已加入

描述

（文章来源：CCTIME飞象网）

搜狗最新推出的“个性化语音识别”服务，在语音输入识别准确率及识别速度方面实现全面提升。此次产品升级后，基于搜狗领先的语音识别技术及为用户制定的专属词汇库，搜狗语音输入就像拥有了“读心术”，大幅提升了语音识别准确率，降低了用户在语音输入后的手动调整率。这一“超能力”让用户直呼搜狗输入法越来越“懂人心”。

语音扩展了手机输入法的场景适用范围，支持用户在不方便手动输入的情况下，一键语音录入文本内容。由于语音识别的精准度会直接影响用户使用频率和使用场景，因此，如何有效提高语音识别的准确性，是输入法行业的尖端技术之争。搜狗此次突破此技术难关，在语音输入领域率先推出“个性化语音识别”，大幅优化了用户在语音内容录入时的使用体验。

同音词组、用户惯用语、口头禅等一直是语音输入的“重灾区”，搜狗输入法的“个性化语音识别”可切实解决这一类问题。比如，当用户语音录入“cheng zhi”时，输入结果显示“诚挚、橙汁、惩治”等大众通用词汇的概率比较大，一般对于人名“程志”的敏感度则不高。“个性化语音识别”在AI语音识别技术及大数据融合的基础上，挖掘用户个性化内容，可有效提升具备个人特色词句的识别准确率，降低用户语音输入过程中的手动修改率，让用户在日常生活中表达、传递信息的效率再次提高。

市场上大部分智能设备都支持语音唤醒功能，这是语音识别技术的第一阶段“听懂”，将“听懂”的语音转换成相应的文字，同时还要保证转换的准确性，这是语音识别技术的第二个阶段“读心”。

第一阶段“听懂”已经在各行业中发展成熟，是因为经过算法辅助和程序纠正，即使机器获取的语音素材不那么完整，也能理解语音基本含义，并作出相应反应。第二阶段“读心”难在如何对用户个人的语音进行精准识别，以使另一方在接受信息时，不会因为“文本畸意”产生误解。

目前，搜狗通用语音识别已全面引入了行业前沿的深度学习技术，其中基于DTSS(Deep Transformer-based Sequence to Sequence model)的端到端声学模型、神经网络语言模型和智能标点预测等技术，可有效推动搜狗语音识别的通用效果和体验，在行业中处于领先地位。此次“个性化语音识别”针对用户的语音输入习惯进行精准优化，从而使得在保障通用识别准确性的情况下，还可将用户常用语词组错误率相对下降近40%，实现语音识别第二阶段“读心”的至关技术突破。

语音输入是人与机器实现沟通的桥梁，现如今，人工智能科技发展迅速、渗入领域辽阔，AI智能科技产品种类不断丰富，这些都意味着输入领域需要更高精尖输入技术的革新。搜狗输入法在开创初期最大的特点是实现了输入法和互联网的结合，一直以来对于互联网科技的发展趋势都有着灵敏的嗅觉，“个性化语音识别”正是顺应新潮流的智慧科技产物。

不难想象，在人工智能普及的未来，通过搜狗语音个性化资源的实现，可有效提高用户人机自然交互的语音转化。除此之外，“个性化语音识别”还可根据用户私人特征和性格习惯，在智能家居、智能教育、智能医疗等与大众日常生活息息相关的各个产业领域，为用户构造专属习惯用语词库，为用户打造与AI智能设备最轻松的语音环境。

从大众化到个性化，从满足普遍适用到细化私人特征，在人工智能、机器学习引领的智慧科技时代，精准个性化用户服务是每个互联网科技产品的刚需。从“听懂”到“读心”，搜狗“个性化语音识别”增强了输入法产品的私人属性，满足了用户个性特征的表达，可赋能科技时代智慧输入法新理念。

打开APP阅读更多精彩内容