电子发烧友网报道(文/李弯弯)语音识别是人工智能的重要分支之一,早在2010年开始就得到发展,并且逐渐在各个领域成熟应用。不过AI语音芯片和算法的研发仍然面临众多难题,不少企业为此坚持研究,不断对技术和产品进行迭代升级,以求取得突破。
启英泰伦是国内领先的AI语音芯片企业,日前,该公司正式发布了全新的第三代智能语音芯片系列,相比于上一代产品,这款芯片创下了算力更高、高度集成和算法新高的记录,进一步解决了业界长久以来难以突破的难题。
AI语音芯片研发面临哪些难题
近几年,AI语音芯片在智能家居、智能车载、智能穿戴等领域的渗透率快速提升,未来随着技术的不断迭代,AI语音芯片在各领域的渗透率和市场规模将会持续扩大。
智能家居方面,当前随着AI语音芯片的价格已经大幅下降,越来越多的厂商倾向于采用AI语音芯片,来替代传统的AP及MCU芯片和IOT芯片,如今AI语音芯片在风扇、茶吧机、取暖桌、空调、插座等众多领域已经开始大规模批量应用。根据调研数据预测,未来5年AI语音芯片在智能家居领域的市场规模将能达到每年2.5亿颗。
智能汽车方面,目前智能汽车中的语音交互多是在云端进行识别处理,然而云端的方式存在无法实时响应、网络无连接时不能使用等问题,因此业界认为端侧语音芯片将会很好的补充云端芯片的不足,预计未来端侧AI语音芯片在车载领域的市场需求每年能达到1亿颗左右。
智能穿戴方面,未来随着芯片尺寸越来越小,成本越来越低,AI语音芯片在穿戴设备上的应用将会越来越多,预计该市场对AI语音芯片的市场需求每年会在千万颗左右。
除了上述市场之外,AI语音芯片还可以在医疗设备、机器人、工业检测等领域得到应用,整体来看,预计未来几年AI语音芯片的市场规模将会快速发展到每年5到10亿颗,随着应用不断拓宽和渗透率不断提升,市场规模可能还将持续不断提升。
虽然存在较大的市场,然而企业在AI语音识别芯片和算法的研发也面临众多需要不断攻克的难题,在此次发布会上,启英泰伦创始人兼CEO何云鹏提到了几点:
1、各种应用场景存在复杂的背景噪声,会影响识别,比如厨电的烟机噪声、炒菜声,客厅的电视声、音乐声,会场的多人声、卖场的高音喇叭声等;2、人类语言种类繁多,如果考虑各地的方言口音,几乎没办法通过大数据训练模型,来满足所有地域口音的识别;3、人类语言的表达非常丰富,要想在设备端实现对任意语言表达的意图理解,也十分困难。
同时,电子设备的发展往往要求在性能或价格上,能够不断改进,这些对于AI语音芯片的研发来说,都是比较大的挑战。
算法、芯片上不断升级,攻克一个个难题
如何解决这些难题呢?一直以来,启英泰伦坚持在芯片和算法两方面不断发力,力求攻克一个个业内难题。截至目前,启英泰伦的技术平台BNPU(脑神经网络处理器)已经迭代三次,从BNPU1.0,BNPU2.0,到BNPU3.0。何云鹏表示,每一代BNPU的问世,都是离线语音芯片和算法的一次突破和语音应用的助推。
具体来看,集成BNPU1.0的一代芯片C11006/CI1002,实现的是端侧语音识别,这是行业首款集成神经网络处理器的语音AI芯片,是离线语音产业应用兴起的标志;集成BNPU2.0的二代芯片CI1102/CI1103及CI1122,不仅实现了离线语音识别功能,还实现了离线声纹识别和命令词自学习等功能。
每颗芯片的迭代,集成度不断增加,成本快速下降,算法功能不断提升。据何云鹏介绍,集成度上,二代系列芯片集成了Audio CODEC、Flash等单元,增加了双麦阵增强处理能力;成本上,一代芯片CI1006成本价为50到90元,CI1102下降到30到40元,二代芯片CI1102/CI1103为15元到25,CI1122下降到了10元到15元之间;算法上,正常安静家居环境下,识别都达到98%以上,65dB左右中强环境噪声下也能实现较好的识别效果。
发布全新三代芯片,端侧NLP技术实现自然语音交互
尽管过去几年在算法和芯片上不断提升,逐渐解决了业界面临的一些难题,然而整个行业仍然存在极难克服的问题,比如:1、离线语音仍然是以命令词为主,对于用户来说,如果命令词多的话,就会很难记住;2、电视新闻,多人声环境,以及噪声强度达到75dB以上的复杂强噪声环境的识别存在困难;3、离线命令词自学习的效果,与大数据训练模型效果仍然存在明显差距,这使得方言问题没有得到彻底解决。
为了攻克这些难题,启英泰伦经过三年时间研发,最终带来BNPU3.0版本,并基于此发布了三代两大系类芯片,一大系列是三代智能语音MCU13;另一大系列是智能语音IOT 23。
相比之前的芯片,三代系列芯片具有更高算力、更高集成度,更高性能。首先看CI13系列芯片,算力方面,该系列内置BNPU 3.0,支持DSP指令扩展的RISC CPU两大内核,主频高达240MHz,具有640KB SRAM,而二代芯片主频是160MHz,内置BNPU2.0,512KB SRAM。
集成度方面,CI13系列芯片集成了Audio Codec模拟MIC接口、数字PDM麦克DMIC接口、通用ADC及MCU常见串口、PWM、GPIO等接口,还集成了4线NOR Flash、3路LDO PMU、高精度RC振荡器等。
通过接上MIC,简单的语音识别应用,外围电路仅需十几个电阻电容,多数情况下可以不需要加晶振;通过串口可以扩展上位机MCU,或WiFi、BLE、2.4G等射频芯片;通过通用ADC或IIC可以输入温度、湿度等传感器信号;通过PWM或其它GPIO,可以实现对开关控制、电机控制、SPI屏或段码屏显示控制、红外收发控制等。这样,CI13系列芯片既可以作为语音识别或语音信号处理的专用芯片,也可以作为带语音识别功能的MCU主控芯片。
算法方面,CI13系列芯片几乎支持全部信号处理和识别技术,包括单麦自适应降噪、降混响、回声消除、DOA、波束形成、盲源分离、语音活动检测等传统信号技术。
除了具有二代芯片的语音识别、声纹识别外,三代CI13系列芯片还支持基于深度学习的降噪技术(深度降噪)、人声分离技术(深度分离)、以及离线NLP技术。深度降噪技术能在信噪比-5dB 到-10dB的环境噪声下将人声提取出来,实现良好识别。
端侧NLP技术在原来的声学模型、语言模型的基础上增加了意图模型,该意图模型采用联合规则和统计训练的模型来实现端侧语音识别+语义理解。端侧NLP技术具备上下文关联、多轮对话、意图理解等云端NLP的功能,该技术的突破,使得设备彻底不需要依赖云端,也可以实现自然随心的语音交互。
接下来看三代芯片CI23系列CI2305 和CI2306,CI23系列芯片在语音功能和性能与CI13系列芯片相同,主要增加集成了WiFi和BLE,形成语音+WiFi+BLE三合一单芯片,其中CI2305支持离线语音+IOT,CI2306还支持将语音上传,实现离线语音+在线语音+IOT功能。
何云鹏认为对设备控制交互在本地计算会更好,这样可以解决云端计算带来的响应延迟太大体验差,断网无法使用及用户隐私泄露风险,以及云端建设和运营成本太高等问题。
除了不断升级芯片算法性能,降低芯片方案成本,启英泰伦还持续提升应用开发平台和合作生态建设,努力降低AI语音应用的门槛。
据启英泰伦介绍,经过近7年发展,公司已经积累B端客户超过5000名,平台开发者超过了1万名,使用启英泰伦智能语音平台的在校AI学员超过10万名。现在,离线语音方案的年装机量超过2000万,并正快速向上亿年装机量发展。
小结
经过过去这些年的发展,语音交互逐渐进入人们的生活,并带来极大的便利,然而不可否认的是,背景噪声大影响语音识别的准确性,命令词太多容易记不住等问题依然存在,而启英泰伦发布的第三代语音芯片,通过算力、集成度、算法的不断升级,完美解决了这些问题,随着各项难题的进一步突破,预计未来AI语音芯片将会在更多的场景中得到更好的应用。