如何使用模仿患者声音的计算机程序将文本重新翻译成语音

描述

《Nature》杂志同时发表了两篇新论文,帮助那些因脑损伤和疾病而失去语言能力的人恢复语言能力,向前迈出了重要一步。两个多学科团队展示了最先进的人工智能辅助脑机接口(BCI)系统的速度和准确性的新记录,带来了前所未有的将大脑信号翻译成句子的能力——速度接近正常语音,词汇量超过1000个单词。这些进步为那些不能说话的人提供了以接近对话水平的速度进行交流的能力,甚至展示了如何使用模仿患者声音的计算机程序将文本重新翻译成语音。 背景

各种神经系统疾病会麻痹对言语和肢体功能至关重要的肌肉,同时影响认知功能,可能导致锁定综合症——个体无法再发起交流,只能通过眨眼或最小的动作来回应询问。有多种系统(称为替代和增强通信技术)可帮助患有闭锁综合症的人进行交流,但这些系统需要付出努力,并且比正常语音慢得多(通常每分钟仅几个单词)。脑机接口有潜力解决这些问题。

1969年,Macaca mulatta发表了第一个证明,可以训练受试者增加单个神经元的活动,从而做出有意的行为。人体实验开始于20世纪90年代末,当时将一个电极连接到患有运动神经元疾病(肌萎缩侧索硬化症,ALS引起的闭锁综合征患者的神经元。随后在2006年进行了一项研究,其中将毫米级电极阵列(称为微电极)植入脊髓损伤患者的大脑中。这种微电极阵列(MEA)记录了运动皮层(负责控制随意运动的大脑区域)中数百个神经元的活动,从而控制机械臂。MEA此后已被用于实现通信,例如通过解码手写尝试。

脑电图(EEG)的补充技术(将电极沿着头皮放置以记录大脑中的电活动)自1999年以来一直被使用,通过控制自定义拼写软件来帮助瘫痪患者进行交流。大约在同一时间,人们发现放置在大脑表面的小盘形电极(直径2 ~ 3毫米)可以获得比使用头皮电极获得的质量更高的信号。这种记录大脑活动的方法称为皮质电图(ECoG)。

2000年代初,ECoG电极被用于接受耐药性癫痫手术的患者,以记录与言语和身体运动相关的大脑信号。这最终导致了第一个完全嵌入式ECoG设备的开发,该设备使患有闭锁综合症的人能够在家使用打字程序。迄今为止,已有约50名不同程度瘫痪的人植入了脑机接口以进行交流,其中大多数人使用MEA。

突破技术

人工智能 图1 将思想转化为言语的先进技术  

加州大学旧金山分校华裔科学家张复伦报告了一位瘫痪参与者的研究结果,该患者在参加这项研究17年前经历了脑干中风,导致她的讲话难以理解。张复伦的BCI系统采用了嵌入253个ECoG电极的硅片,每个电极都记录了数千个神经元的平均活动(图1a)。该设备通过手术植入感觉运动皮层的左侧“面部区域”——大脑中服务于口腔和面部肌肉(包括声道)的部分。该研究以之前的ECoG记录报告为基础,其中包括植入另一个脑干中风患者体内的类似BCI。

 

大脑到文本的解码是通过两个系统的组合实现的:循环神经网络(RNN,一种人工神经网络),它运行的算法可以破译与发音器官(声道的一部分)运动相关的大脑活动;其次是语言模型,该模型以每分钟78个单词的速度从1024个单词组成句子(尽管单词错误率为25.5%)。或者,将大脑信号直接翻译成合成语音,对于1024个单词的词汇,单词错误率为54.4%;较小词汇量的错误率有所下降(119个单词的词汇量为8.2%)。BCI还解码尝试的面部表情,并使用数字化身再现,从而为文本或语音提供视觉反馈,极大地丰富了参与者的沟通能力。总体而言,与之前报道的ECoG BCI相比,该设备在词汇量、通信速度和语音解码的多功能性方面都有显著改进。

 

与此同时,斯坦福大学Francis R. Willett一作兼通讯,报道了通过使用两个MEA(总共包含128个电极)从一名因ALS而无法清晰说话的参与者的左侧感觉运动面部区域的小斑块进行记录(图1b)。与张复伦教授及其同事的设备一样,RNN和语言模型被用来将大脑信号翻译成文本,并针对不同大小的词汇进行训练和测试。使用该设备,参与者能够以平均每分钟62个单词的速度进行交流,125000个单词的词汇错误率为23.8%,50个单词的词汇错误率为9.1%。

 

RNN使用参与者尝试说出显示器上显示的260 ~ 480个句子时收集的神经活动记录进行训练——整个过程平均每天需要140分钟,持续8天。分析表明,这种日常训练可以大大减少,而不会造成很大的表现损失。重要的是,作者观察到,从被广泛认为对语音产生至关重要的大脑区域(称为布罗卡区)记录的神经活动无法被解码,这引发了关于该区域是否包含对语音解码有用的信息的疑问。

人工智能 图2 口面部运动和尝试言语的神经表征  

意义与影响

这两份报告构成了重要的概念证明,即可以使用植入式脑机接口恢复通信,这两个脑机接口代表了神经科学和神经工程研究的巨大进步,并在提高因瘫痪神经损伤和疾病而失声的人的生活质量方面显示出巨大的希望。即使是允许用户在辅助技术软件中选择字母或图标的基本BCI植入程序,也能为他们的日常生活带来巨大的好处和满意度。可以实现通信的先进BCI系统(例如这里讨论的系统)预计将产生更大的影响。

但有几个问题需要进一步调查才能得到更广泛的使用。首先,这两项研究中使用的语音模型都使用具有残余(尽管微弱)发音运动的参与者的模仿语音进行训练和测试。现在需要更多的研究来证明对于缺乏残余运动的参与者(如锁定综合征(包括晚期ALS))的疗效。另一个问题是,对于这两种设备,高带宽记录是从数百个电极中获取的,这些电极必须通过穿透皮肤的“基座”连接到外部放大器,这在美观上没有吸引力。需要开发完全植入式无线脑机接口,以复制或超越这些研究中报告的性能。

此外,高技能的研究人员积极参与了所报告的脑机接口的操作,但对于护理人员来说,如果没有大量的培训和维护,这些脑机接口仍然太复杂,无法在家庭环境中操作。未来将需要类似的、在最少或无需研究人员干预的情况下运行的有效BCI系统。这需要使用以用户为中心的设计原则,在临床人群中进行广泛的开发和测试。目前还不清楚用户对其他人语音的感知是否会导致大脑到文本解码的错误,因为越来越多的证据表明,除了语音产生之外,语音感知还会激活感觉运动皮层。

最后,哪种BCI方法(MEA或ECoG)最能满足用户在现实应用中的安全性和长期有效性方面的需求,还有待观察。MEA从较小的皮质区域捕获丰富的功能信息,但信号往往不稳定,需要频繁更新语音解码模型。此外,MEA的寿命可能会受到电极材料的降解和装置的组织封装的限制。ECoG电极需要植入的面积比MEA更大,但ECoG电极位于皮质组织外部,通常可以多年提供出色的信号质量,尽管它们会引起浅表组织反应。

        审核编辑:彭菁

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分