下一代的人机交互方式是什么？

电子工程师 2018-10-21 7075

电子说

1.2w人已加入

描述

自互联网诞生以来，人与机器的信息交互方式就在不断演进和发展。从早期单一的鼠标、键盘操作方式，再到如今以智能手机为代表的触控交互。我们急切地想知道：下一代的人机交互方式是什么？

智能语音，赋予了机器可以像人类一样“讲话”并与人类“对话”的能力，也让不少人看到了语音技术的巨大潜力。追溯起来，有关语音技术真正意义上的研究可以追溯到 1876 年贝尔电话的发明。

从 2009 年开始，借助机器学习领域深度学习研究的发展及大数据语料的积累，以语音识别为突出代表的语音技术得到了突飞猛进的发展。如将深度学习引入语音识别声学模型训练，使用基于 RBM 预训练的多层神经网络，以提高声学模型的准确性，包括苹果公司的 Siri、谷歌公司的 Google Assistant 的面世曾一时引起了不小轰动。2015 年，亚马逊 Amazon Echo 的诞生正式开启了智能语音技术的竞争局面。从智能音箱到主打语音交互的智能设备，国内外巨头们不惜轮番价格战。

截止到目前，国内外的战场上有阿里、腾讯、百度，也有谷歌、微软、亚马逊、Facebook，它们的介入导致不少创新公司展开了激烈竞争，也对未来十年产生了极其重要的影响。

在众多语音技术中，语音识别、语音合成、声纹识别、语音唤醒、端信号处理等语音技术伴随着算法统计模型的迭代有了新的重大创新，也成为当前最具有挑战性和应用场景的技术。

以声纹识别为例，即通过对一种或多种语音信号的特征分析来判断说话人身份的技术。由于任何两个人的声纹图谱都有所差异，所以声纹同样具有如指纹生物特征一样的唯一性。声音不涉及隐私问题，麦克风和传感器等相关设备成本低廉，传输带宽窄，而语音又是一个形简意丰的信号，口音、语种、情感等各种信息通过一段声音便传输了出来。

清华大学语音和语言技术中心主任、得意音通董事长郑方博士接受 CSDN 采访时表示：“目前在声纹识别这个领域，不同技术或产品提供商参差不齐、差异很大；与此同时，声纹识别不再是单一强调准确性，而是变得更为成熟、完备和可用。”

不过相对来讲，声纹识别仍是一个应用相对较窄的领域。就目前来看，语音识别、语音合成的应用更为广泛。

例如在年初举办的Google I/O 大会上，机器语音助手的一声“嗯哼”震惊了全场，然后微软小冰为知乎写歌又刷了一波屏。我们才意识到，AI 语音正悄然从原来的“机械式语音”变成了“像人类一样说话”的自然语言。

语音产业虽然可以由概念触发，但最终仍由技术驱动，打磨好技术和产品仍是第一要务。

出门问问 CTO 雷欣曾表示，“从技术上来讲，机器学习、人工智能跟其他功能性的东西不太一样，它非常强调学习的过程，训练跟实际使用场景越匹配越好，做得越通用，就代表在某一个垂直领域做不到最优。”

那么，随着语音市场需求的爆发，如何更好地通过智能技术解决声学、语音、语义等各方面的问题，对于任何一位语音技术相关领域的工程师而言，将是未来长期时间内必然面临的挑战。

现在，CSDN 就为大家提供了这样一个机会，让你能够聆听头部 AI 公司的最新技术实践，并有机会与这些公司的资深技术人员面对面交流。

2018 年 11 月 8-9 日，由中国 IT 社区 CSDN 与硅谷 AI 社区 AICamp 联合出品的 2018 AI 开发者大会（AI NEXTCon）将于北京召开。

本次大会设有“语音技术专场”，我们很荣幸邀请到在研究和工业界都极富盛名的一线技术专家们：清华大学语音和语言技术中心主任、得意音通董事长郑方，声智科技创始人、董事长兼 CEO 陈孝良，出门问问 CTO 雷欣、云知声董事长、CTO梁家恩，以及标贝科技联合创始人&CTO 李秀林。

下面重磅介绍语音技术专题的讲师团和他们的议题概要：

陈孝良：声智科技创始人、董事长兼 CEO

演讲议题：远场语音交互技术与实践

陈孝良，2017 年度中关村高端领军人才，计算机学会语音对话与听觉专业组常务委员，中国声学学会声频工程分会委员，中国人工智能和大数据专家委员，美国 AES/JASA 会员。先后于北京航空航天大学和中国科学院大学(声学研究所)获得管理学学士和工学博士学位。

曾任职于金山软件股份有限公司和中国科学院声学研究所，历任初级工程师、助理研究员、副研究员，兼任首届信息化办公室主任和中国科学院上海高等研究院客座副教授，主要参与海军某重大型号舰艇、863、973、国家自然科学基金、中科院战略先导等国家重要项目，共发表文章36 篇，申请专利 35 项。

郑方：清华大学语音和语言技术中心主任、得意音通董事长

演讲议题：声纹识别技术及其应用现状

郑方，博士、教授、博士生导师，清华大学语音和语言技术中心主任；北京得意音通技术有限责任公司董事长；亚太区信号与信息处理联合会副主席、中国中文信息学会语音专委会主任、中国计算机学会语音对话与听觉专业组副主任。

郑方博士从事语音语言处理和生物特征识别的研发近 30 年，是全国安防标委会人体生物特征识别应用分委会副主任委员、中文语音交互技术标准工作组声纹识别专题组组长、全国信标委生物特征识别分委会委员等，是许多国家和行业标准的起草者。

梁家恩：云知声董事长、CTO

演讲议题：AIoT 智能交互技术与应用

梁家恩博士毕业于中国科技大学，获中国科学院识别与智能系统专业博士学位，毕业后留校负责语音识别核心技术研发及其产业化，在国家863语音识别核心技术评测中多次获第一名，在广电、安全、教育等领域实现产业化应用。

2012 年，由梁家恩博士主导创立人工智能公司云知声，并率先在国内实现深度学习和5米远讲识别技术的产业化，在业内首次提出的“云端芯”一体化解决方案已经在家居、车载、医疗、教育等领域规模化落地。在他和团队的共同努力下，云知声先后被福布斯评为“中国成长最快科技企业”、科技部评为“中国独角兽企业”。2013 年底，梁家恩博士出任云知声 CTO，负责技术领域。

李秀林：标贝科技联合创始人&CTO

演讲议题：标贝科技的语音超市实践——助力智能产品人性化

李秀林，中国科学院博士，15 年语音相关技术研发和学术研究，申请专利三十余项，在国内外语音界有很高的知名度；曾带领团队获得百度百万美元大奖。2006 年— 2013 年，松下研发中心高级研发经理；2013 年— 2016 年，百度语音合成技术负责人；2016 年—2018 年，滴滴研究院语音团队负责人&首席算法工程师；2018年3月份加盟标贝科技，作为联合创始人兼 CTO。

雷欣：出门问问（Mobvoi）CTO

演讲议题：语音交互的软硬结合

雷欣，人工智能专家，在人工智能尤其是语音识别领域至今已有十多年研究及从业经验。2006 年，雷欣获得美国华盛顿大学电子工程博士后，加入了微软总部任软件设计工程师及 Speech Scientist，负责开发微软语音识别引擎内的说话人自适应模块；后加入斯坦福研究所（SRI）任研究工程师，领导开发了SRI 2008 年大规模中文语音识别系统；随后进入 Google 研究院任 Staff Research Scientist，领导开发 Google 基于深度神经网络的离线语音识别系统。

目前，雷欣所带领的出门问问 AI 团队，正进行人工智能落地在生活场景（可穿戴、车载、家居）上的研究开发。

除了语音技术专题之外，我们还为大家准备了“自然语言处理”、“机器学习工具”、“数据分析”、“机器学习”、“计算机视觉”、“知识图谱”等技术专题，以及“智慧金融”、“智能驾驶”、“智慧医疗”等行业峰会。大会完整日程以及嘉宾议题请查看下方海报。

打开APP阅读更多精彩内容