电子说
魏思,肥东一中99届高中毕业生,现为中国科学技术大学工学博士、科大讯飞研究院副院长、讯飞易听说首席科学家。2017年获选《麻省理工科技评论》全球青年科技创新人才,入选为“远见者”,代表了深度学习与语音识别的创新精神。魏思知识渊博,才思敏捷,为人谦逊,表达力强且不失幽默,善于深入浅出地把深奥的理学知识讲解得浅显易懂。
科大讯飞研究院副院长,带领团队研发语音识别新框架,和传统深度学习模型相比,增加了“记忆块”的模块,用以存储对判断当前语音帧有用的历史信息和未来信息,可以使响应时间可以大大缩短。
近几年,中国讨论度最高的人工智能公司少不了科大讯飞。但大部分人是对讯飞的了解仅限于其语音技术,其实,科大讯飞还有一个更大的目标——打造“讯飞超脑”。
以“从能听会说到能理解会思考”为目标的讯飞超脑计划,要实现基于类人神经网络的认知智能引擎,预期成果是实现世界上第一个中文认知智能计算引擎。
魏思正是“讯飞超脑”计划的主要负责人之一。1999年,他进入中国科学技术大学电子工程与信息科学系学习,并于 2008年获得中国科学技术大学工学博士学位,同年起在科大讯飞研究院工作至今。如今,身为科大讯飞研究院副院长的魏思,同样是讯飞语音技术的核心人物。
基于讯飞超脑计划,科大讯飞正在开启一场以语音和语言为入口的“认知革命”。在过去6年中,讯飞的语音识别技术准确率从60.2%提升到95%以上。
准确率提升的背后,是魏思带领团队研发的一个语音识别“新武器”——一种名为“前馈型序列记忆网络 ”( FSMN )的新框架。据魏思介绍,和传统深度学习模型相比,前馈型序列记忆网络增加了一个“记忆块”的模块,用以存储对判断当前语音帧有用的历史信息和未来信息,从而实现语音识别中的“端到端”建模。和其他多个技术点结合后,讯飞基于FSMN的语音识别框架获得了大幅度的性能提升。这个新模型可以使响应时间可以大大缩短,例如原来的一个星期可以缩短到一天,还可以提升训练效果。
FSMN保证了语音识别的准确性,但这还不够。一个大趋势是,几乎所有在做语音技术的人工智能公司都会追求更高的语音合成自然程度。在这一点上,魏思领导团队则实现了基于深度学习的全新的语音合成系统,进一步提升合成语音的自然度和表现力。在有麻省理工学院、卡内基梅隆大学等国际知名科研机构参加的国际最高水平的语音合成比赛 Blizzard Challenge(暴风雪竞赛)中,魏思团队开发的系统连续 11 年夺冠,7 项指标全部全球第一,并且是所有参赛队伍中唯一超过自然人发音水平的系统。
当然,对于正在采取“平台+赛道”扩张方式的讯飞而言,无论是哪一个赛道,都离不开技术的积累,魏思在多年科研工作中的成果也正迎来新的机会。
比如,他曾创造性地提出多种中英文语音评测评测算法,并带领团队获得国际领先成果。现在,他们已经可以将相关的评测技术应用到普通话测试及教学中,其中英文口语测试系统在国内外首次达到人工评测员水平。这项技术最主要的特点是实现了测试管理的信息化和测试手段的现代化。
而在说话人语种识别研究上,魏思则提出了基于深度神经网络的语种识别算法,大幅提升了语种识别的效果,成为目前业界所有语种识别系统的标准配置。
类似的案例还有很多,魏思的技术征途也不再仅限于语音:他带领团队提出基于CNN的离线手写识别策略,在世界上首次实现试卷扫描自动评分系统;在人工智能-认知智能方面,魏思带领团队获得国际著名的常识推理比赛Winograd Schema Challenge 2016的第一名成绩,该任务是国际常识推理领域的新型评测任务,被学术界普遍认为是替代图灵测试衡量机器智能水平的重要学术挑战……
如果说有什么在驱动魏思不断地创新,那肯定少不了他对现有技术的“不满足”。“虽然近几年深度神经网络的兴起使得语音识别性能获得了极大的提升,但是我们并不能迷信于现有的技术,总有一天新技术的提出会替代现有的技术”,魏思曾在一篇博文中这样写道。
回顾语音识别的发展历史和讯飞语音识别系统的最新进展,他也发现,技术的突破总是艰难而缓慢的,重要的是坚持和不断思考。他也坚信,“现在是一个伟大的时代”。
“那么,在这个伟大的时代,我们的征途是什么呢?我觉得有一句话非常能够表现我自己或者是讯飞研究院这么多年的思考,那就是:在中国,可以改变世界”。魏思认为,在这10年中,中国原创能力的蓬勃发展已经显现出来,与全世界同台竞技,“我们毫不怯场”。
展望下一个10年,魏思和他的团队同样有几个小目标:将讯飞研究院打造成一个世界知名的研究机构,培养出一批世界顶级的科学家,最后,能够解决几个基本的科学问题。
“在下一个10年或者20年,我们终将可以触及智能的本质,解开智慧之谜”。
全部0条评论
快来发表一下你的评论吧 !