电子说
阿里又出黑科技。新的唇语阅读 AI 系统在识别准确率表现上不仅超越基线标准,也优于专家级人类水平,有望为全球近 5 亿听障人士带来福音。
阿里巴巴又出黑科技,AI 看唇语知内容!
实际上,能够从视频中读取嘴唇的 AI 和机器学习算法并没有什么不同。早在 2016 年,来自 Google 和牛津大学的研究人员就详细介绍了一种系统,该系统可以 46.8% 的准确度注释视频录像,这个表现明显优于专业唇语识别人士 12.4% 准确度。但是,即使是最先进的系统,也难以克服唇语识别时的歧义问题,这使唇语 AI 的性能一直难以超越音频语音识别。
为了追求更好的性能,浙江阿里巴巴公司和史蒂文斯理工学院的研究人员联合设计了一种方法,称为 LIBS,该方法利用从语音识别器中提取的特征作为唇语识别时的补充信息。研究人员表示,LIBS 系统在两个基准测试中都达到了业界领先的准确度,在识别字符错误率方面,LIBS 分别较基线性能高出 7.66% 和 2.75%。
LIBS 和其他类似的解决方案一样,都可以帮助听障人士观看缺少字幕的视频。据估计,全世界有 4.66 亿人患有失能性听力障碍,约占世界人口的5%。根据世界卫生组织的数据,到 2050 年,这一数字可能会超过 9 亿。
LIBS 会从说话人的视频中以多种不同尺度提取有用的音频信息,包括序列级、上下文级和帧级。然后,系统会识别这些信息之间的对应关系,将数据与视频数据进行对齐(由于开头或结尾有时会出现采样率不一致、视频和音频序列的长度不一致等情况),并利用过滤技术来优化蒸馏功能。
LIBS 系统架构示意图
LIBS 的语音识别器和口语阅读器组件均基于注意力的 seq2seq 体系结构,这是一种机器翻译方法,可将序列的输入(即音频或视频)映射到带有标签的输出和注意力值上。研究人员对上述内容在 LRS2 和 CMLR 数据集上进行了训练,LRS2 包含来自 BBC 的 45000 多个口语句子,CMLR 则是最大的中文普通话口语语料库,包括了来自中国网络电视台网站的 10 万余个自然句(包括 3000 多个汉字和 20000 多个短语)。
不过,研究团队也表示,由于某些句子长度太短,该模型难以在 LRS2 数据集上实现“合理的”结果。(解码器从少于 14 个字符的句子中提取相关信息时会遇到困难。)但是,一旦对最大长度为 16 个单词的句子进行了预训练,解码器将可以通过对上下文级别的知识进行设置,提高 LRS2 数据中句子结尾部分的质量。
研究人员在描述其工作的论文中写道:“ LIBS 减少了对无关框架的关注。” “帧级知识提炼进一步提高了视频帧特征的可分辨性,使注意力更加集中。”
全部0条评论
快来发表一下你的评论吧 !