科大讯飞引领语音识别技术新篇章

讯飞开放平台 2024-10-14 2348

描述

无论是《2011太空漫游》中的 HAL 还是《星球大战》中的 C-3PO，人们长期以来一直幻想着能够与机器对话。

从智能手机助手到智能家居系统，再到车载语音控制系统，语音识别技术如今似乎已成为生活中不可或缺的一部分。但在某些场景，表现得并不如人意。“肌肉”和“鸡肉”、“北麓”和“北路”，语言的歧义性、语境的依赖性，以及沟通双方所需的共同知识背景，都是当前需要克服的难题。

美国学者爱德华·霍尔在1976年的著作《超越文化》中，提出了“高语境文化”与“低语境文化”的概念。高语境文化，被认为是一种注重细节、强调推断和推理、强调群体认同和文化多样性的文化。中文，是其中典型的代表。因此，在电影《流浪地球》中我们可以看到这样的场景，MOSS与刘培强的交流中，多次强调避免使用比喻、反问和暗示，以减少理解上的误差。

不仅是中文，不同语言之间在语音、语法、词汇上的差异，以及个体独特的口音和发音习惯，都为语音识别技术带来了额外的挑战。

在语音识别技术的应用已相当成熟、跨文化交流增多的今天，如何进一步提高语音识别的准确率，改善人机交互体验，为人与人之间交流打破国界、地域的阻碍？

深耕语音技术领域25年，在AI技术飞速跃迁的今天，科大讯飞发布了语音识别大模型，将语音识别的准确率和多语种识别的效果，提升到了一个新的高度。

01无处不在，语音识别持续进化

技术角度来看，语音识别是一项融合多学科知识的前沿技术，覆盖了数学与统计学、声学与语言学、计算机与人工智能等基础学科和前沿学科。简而言之，它的核心任务是将输入的语音信号转换为与之匹配度最高的文字序列。

1952年，贝尔实验室研制出世界上第一个能识别10个英文数字发音的实验系统，揭开了人类使用计算机识别语音的序幕。进入90年代，伴随个人电脑和互联网普及，语音识别逐渐走出实验室，走进公众视野。2009年之后，深度神经网络（DNN）的引入，使得语音识别的准确率显著提升，相关产品开始大规模普及，技术进入新的发展阶段，深入到我们日常生活的方方面面。

大模型技术引爆的人工智能新一轮应用热潮，其感知能力、认知能力、生成能力正重构人机交互方式，不断刷新用户期待，在千行百业落地应用。语音识别作为最早落地的人工智能技术之一，也悄然发生着变革。

经过海量数据训练、拥有强大自然语言理解能力的大模型，给语音研究带来了新的技术逻辑，创造了语音技术发展的全新机会。

通过学习更多的语言知识和上下文信息，大模型能实现更精准的语义理解，准确识别出语音内容；同时，基于更统一的多任务建模能力，通过在中文、英文和其他语种的语料上进行训练，有助于提升语料稀缺小语种的效果。

科大讯飞作为语音领域的佼佼者，如今正在引领着语音识别技术的未来发展。

02语音行业翘楚，首发星火语音大模型

智能语音是万物互联机器沟通的入口，也是人工智能赋能千行万业、浸润千家万户的秘钥。

25年前创业之初，科大讯飞的梦想和使命就是要实现人机信息沟通无障碍，并始终保持初心，长期致力于智能语音技术的源头创新及产业化应用。

从2010年国内首批开展深度神经网络语音识别研究，到全球首个中文语音识别深度神经网络（DNN）上线、循环神经网络（RNN）语音识别全面升级、全球首创基于全序列卷积神经网络（DFCNN）的语音识别，再到近几年持续探索无监督预训练、多模态在语音识别上的应用，讯飞不断挑战语音识别实际应用中的技术难题。

2023年，在有“最难语音识别任务”之称的语音领域权威赛事——国际多通道语音分离和识别大赛CHiME中，讯飞在大牛如云的参赛队伍中，力压群雄，第四次拿下冠军。

除中英以外，科大讯飞已具备其他69种语言的语音识别能力，其中有35个语种准确率超过90%（数据来源于实际应用）。同时，讯飞开放平台还在新加坡、俄罗斯、印度、日本等国家部署了海外站点，将语音识别、语音合成等技术，开放给海内外开发者。

大模型时代浪潮下，科大讯飞基于深厚的技术积累，2024年1月31日正式推出星火语音大模型，引领万物互联时代的人机交互革命。在语音识别方面，中文、英语、法语、俄语等首批37个主流语种的语音识别效果超过OpenAI Whisper V3。其中，13个重点语种识别率达94%，24个主要语种识别率达90%。

03高准确率+高识别率语音识别大模型上线

让更多人能享受到新技术带来的便利，近期，基于星火语音大模型的语音识别大模型已在讯飞开放平台上线，面向开发者开放调用，可以将短音频(≤60秒)精准识别成文字，除中文普通话和英文外，支持37个语种自动判别，说话过程中可以无缝切换语种，实时返回对应语种的文字结果，并提供公有云接口及私有化部署方案。

与传统的语音识别产品相比，语音识别大模型有着独特的优势：

高识别率，高准确率

基于统一建模的星火多语种语音识别大模型，极大提升了语音识别准确度，真实还原语音内容，提高信息获取效率

多语种自动判别

支持中文、英语、日语、韩语、俄语、法语等37个语种的自动判别，在说话过程中可以无缝切换语种，助力跨文化交流更自由

指定语种准确率更高

对于已明确语种的场景，也可以指定语种进行识别，进一步提升正确率

智能标点

数字、标点、大小写和识别结果同步预测，使口语表达变规整，带来更流畅的阅读体验

在开发者资源方面，除了基础的WebAPI，讯飞开放平台还提供了不同平台的SDK，包括Android、Linux、iOS、Windows ，帮助开发者将语音识别大模型能力快速集成到产品中。

目前，语音识别大模型能力已搭载在讯飞星火APP和讯飞翻译机等产品中。

打开讯飞星火APP，用语音与星火进行对话，你所说的语音会快速被识别为精准的文字，让你直观感受到语音识别大模型带来的高准确率和高识别率。

持续进步的语音识别技术正进一步拓展人机交互的场景边界，在客户服务、语音搜索、游戏娱乐、会议记录、教育培训等领域，为人类带来更加便捷、高效和智能的生活方式。

正如梅拉妮·米歇尔在《AI 3.0》书中强调，自动语音识别是深度学习在自然语言处理中的第一个重大成就，也是迄今为止人工智能在所有领域中取得的最重要的成就。这不仅是对语音识别技术的认可，更是对未来人机交互无限可能的预示。

点击阅读原文，免费领取语音识别大模型试用包，至高20万次服务量（中文）。

文末彩蛋

2023年，科大讯飞与统信软件宣布达成战略合作，充分发挥各自技术和产品优势，共同探索新的商业模式，推动AI技术在各行各业的深度应用。

统信软件是全球主流操作系统产品与服务提供商，统信UOS桌面版发货量累计超过600万，服务器版发货量增速更是位列行业前列。

近日，讯飞星火、讯飞智文已正式上架统信应用商店，让全球用户可通过统信应用商店一键轻松畅享AI乐趣，感受前所未有的便捷应用与服务体验。

打开APP阅读更多精彩内容