离线语音进入快车道，启英泰伦发布全新AI语音芯片！

Carol Li 2022-08-05 3713

描述

电子发烧友网报道（文/李弯弯）语音识别是人工智能的重要分支之一，早在2010年开始就得到发展，并且逐渐在各个领域成熟应用。不过AI语音芯片和算法的研发仍然面临众多难题，不少企业为此坚持研究，不断对技术和产品进行迭代升级，以求取得突破。

启英泰伦是国内领先的AI语音芯片企业，日前，该公司正式发布了全新的第三代智能语音芯片系列，相比于上一代产品，这款芯片创下了算力更高、高度集成和算法新高的记录，进一步解决了业界长久以来难以突破的难题。

AI语音芯片研发面临哪些难题

近几年，AI语音芯片在智能家居、智能车载、智能穿戴等领域的渗透率快速提升，未来随着技术的不断迭代，AI语音芯片在各领域的渗透率和市场规模将会持续扩大。

智能家居方面，当前随着AI语音芯片的价格已经大幅下降，越来越多的厂商倾向于采用AI语音芯片，来替代传统的AP及MCU芯片和IOT芯片，如今AI语音芯片在风扇、茶吧机、取暖桌、空调、插座等众多领域已经开始大规模批量应用。根据调研数据预测，未来5年AI语音芯片在智能家居领域的市场规模将能达到每年2.5亿颗。

智能汽车方面，目前智能汽车中的语音交互多是在云端进行识别处理，然而云端的方式存在无法实时响应、网络无连接时不能使用等问题，因此业界认为端侧语音芯片将会很好的补充云端芯片的不足，预计未来端侧AI语音芯片在车载领域的市场需求每年能达到1亿颗左右。

智能穿戴方面，未来随着芯片尺寸越来越小，成本越来越低，AI语音芯片在穿戴设备上的应用将会越来越多，预计该市场对AI语音芯片的市场需求每年会在千万颗左右。

除了上述市场之外，AI语音芯片还可以在医疗设备、机器人、工业检测等领域得到应用，整体来看，预计未来几年AI语音芯片的市场规模将会快速发展到每年5到10亿颗，随着应用不断拓宽和渗透率不断提升，市场规模可能还将持续不断提升。

虽然存在较大的市场，然而企业在AI语音识别芯片和算法的研发也面临众多需要不断攻克的难题，在此次发布会上，启英泰伦创始人兼CEO何云鹏提到了几点：

1、各种应用场景存在复杂的背景噪声，会影响识别，比如厨电的烟机噪声、炒菜声，客厅的电视声、音乐声，会场的多人声、卖场的高音喇叭声等；2、人类语言种类繁多，如果考虑各地的方言口音，几乎没办法通过大数据训练模型，来满足所有地域口音的识别；3、人类语言的表达非常丰富，要想在设备端实现对任意语言表达的意图理解，也十分困难。

同时，电子设备的发展往往要求在性能或价格上，能够不断改进，这些对于AI语音芯片的研发来说，都是比较大的挑战。

算法、芯片上不断升级，攻克一个个难题

如何解决这些难题呢？一直以来，启英泰伦坚持在芯片和算法两方面不断发力，力求攻克一个个业内难题。截至目前，启英泰伦的技术平台BNPU（脑神经网络处理器）已经迭代三次，从BNPU1.0，BNPU2.0，到BNPU3.0。何云鹏表示，每一代BNPU的问世，都是离线语音芯片和算法的一次突破和语音应用的助推。

具体来看，集成BNPU1.0的一代芯片C11006/CI1002，实现的是端侧语音识别，这是行业首款集成神经网络处理器的语音AI芯片，是离线语音产业应用兴起的标志；集成BNPU2.0的二代芯片CI1102/CI1103及CI1122，不仅实现了离线语音识别功能，还实现了离线声纹识别和命令词自学习等功能。

每颗芯片的迭代，集成度不断增加，成本快速下降，算法功能不断提升。据何云鹏介绍，集成度上，二代系列芯片集成了Audio CODEC、Flash等单元，增加了双麦阵增强处理能力；成本上，一代芯片CI1006成本价为50到90元，CI1102下降到30到40元，二代芯片CI1102/CI1103为15元到25，CI1122下降到了10元到15元之间；算法上，正常安静家居环境下，识别都达到98%以上，65dB左右中强环境噪声下也能实现较好的识别效果。

发布全新三代芯片，端侧NLP技术实现自然语音交互

尽管过去几年在算法和芯片上不断提升，逐渐解决了业界面临的一些难题，然而整个行业仍然存在极难克服的问题，比如：1、离线语音仍然是以命令词为主，对于用户来说，如果命令词多的话，就会很难记住；2、电视新闻，多人声环境，以及噪声强度达到75dB以上的复杂强噪声环境的识别存在困难；3、离线命令词自学习的效果，与大数据训练模型效果仍然存在明显差距，这使得方言问题没有得到彻底解决。

为了攻克这些难题，启英泰伦经过三年时间研发，最终带来BNPU3.0版本，并基于此发布了三代两大系类芯片，一大系列是三代智能语音MCU13；另一大系列是智能语音IOT 23。

相比之前的芯片，三代系列芯片具有更高算力、更高集成度，更高性能。首先看CI13系列芯片，算力方面，该系列内置BNPU 3.0，支持DSP指令扩展的RISC CPU两大内核，主频高达240MHz，具有640KB SRAM，而二代芯片主频是160MHz，内置BNPU2.0，512KB SRAM。

启英泰伦

集成度方面，CI13系列芯片集成了Audio Codec模拟MIC接口、数字PDM麦克DMIC接口、通用ADC及MCU常见串口、PWM、GPIO等接口，还集成了4线NOR Flash、3路LDO PMU、高精度RC振荡器等。

通过接上MIC，简单的语音识别应用，外围电路仅需十几个电阻电容，多数情况下可以不需要加晶振；通过串口可以扩展上位机MCU，或WiFi、BLE、2.4G等射频芯片；通过通用ADC或IIC可以输入温度、湿度等传感器信号；通过PWM或其它GPIO，可以实现对开关控制、电机控制、SPI屏或段码屏显示控制、红外收发控制等。这样，CI13系列芯片既可以作为语音识别或语音信号处理的专用芯片，也可以作为带语音识别功能的MCU主控芯片。

启英泰伦

算法方面，CI13系列芯片几乎支持全部信号处理和识别技术，包括单麦自适应降噪、降混响、回声消除、DOA、波束形成、盲源分离、语音活动检测等传统信号技术。

除了具有二代芯片的语音识别、声纹识别外，三代CI13系列芯片还支持基于深度学习的降噪技术（深度降噪）、人声分离技术（深度分离）、以及离线NLP技术。深度降噪技术能在信噪比-5dB 到-10dB的环境噪声下将人声提取出来，实现良好识别。

端侧NLP技术在原来的声学模型、语言模型的基础上增加了意图模型，该意图模型采用联合规则和统计训练的模型来实现端侧语音识别+语义理解。端侧NLP技术具备上下文关联、多轮对话、意图理解等云端NLP的功能，该技术的突破，使得设备彻底不需要依赖云端，也可以实现自然随心的语音交互。

启英泰伦

接下来看三代芯片CI23系列CI2305 和CI2306，CI23系列芯片在语音功能和性能与CI13系列芯片相同，主要增加集成了WiFi和BLE，形成语音+WiFi+BLE三合一单芯片，其中CI2305支持离线语音+IOT，CI2306还支持将语音上传，实现离线语音+在线语音+IOT功能。

何云鹏认为对设备控制交互在本地计算会更好，这样可以解决云端计算带来的响应延迟太大体验差，断网无法使用及用户隐私泄露风险，以及云端建设和运营成本太高等问题。

除了不断升级芯片算法性能，降低芯片方案成本，启英泰伦还持续提升应用开发平台和合作生态建设，努力降低AI语音应用的门槛。

据启英泰伦介绍，经过近7年发展，公司已经积累B端客户超过5000名，平台开发者超过了1万名，使用启英泰伦智能语音平台的在校AI学员超过10万名。现在，离线语音方案的年装机量超过2000万，并正快速向上亿年装机量发展。

小结

经过过去这些年的发展，语音交互逐渐进入人们的生活，并带来极大的便利，然而不可否认的是，背景噪声大影响语音识别的准确性，命令词太多容易记不住等问题依然存在，而启英泰伦发布的第三代语音芯片，通过算力、集成度、算法的不断升级，完美解决了这些问题，随着各项难题的进一步突破，预计未来AI语音芯片将会在更多的场景中得到更好的应用。

打开APP阅读更多精彩内容