今天,AI正作为一个科技发展周期的轴心,成为万众瞩目的焦点。与历史上数次技术革命和AI浪潮所不同的是,这次AI的全球领先阵营里,有了中国的身影。
从一个学术灵感,到一项全球领先的专利技术,从一篇顶会论文到一个宏大的AI产业布局,中国AI的量变和质变,凝结了无数人扎根在泥土中一步一个脚印的寸进。
5月6日,第十二届吴文俊人工智能科学技术奖颁奖典礼正式举办。其中,百度首席技术官、深度学习技术及应用国家工程研究中心主任王海峰带领团队完成的“知识与深度学习融合的通用对话技术及应用”成果,荣获“2022年度吴文俊人工智能科技进步奖特等奖”,这也是“吴文俊奖”首次评出特等奖。
这一个特殊的时刻,承载了一个“中国人工智能最高奖”、一个中国AI科学家、一个中国AI科技企业的十二年光阴。
如果大家对中国AI如何一步步前行而感到好奇,那么这个奖项正好是机会,可以看到一个人和一家企业,究竟是如何征服山岭的。
敢登千丈山:和“吴文俊奖”同行的百度攀山路
这两天,大家一定看到了很多“吴文俊奖”的消息。
将时间退回到2011年,中国人工智能学会刚刚发起“吴文俊人工智能科学技术奖”的那一天,绝大多数人都无法想象,中国AI能有这样的盛况。
十二年,对于“吴文俊奖”,以及百度和王海峰,都是一条值得感慨的时间旅程。
十二年前,刚刚发起的“吴文俊奖”规模尚小,第一届只颁出了五个奖项,获奖者大多来自北京邮电大学、中科院自动化所等高校院所。十二年来,该奖先后授予了两百多个单位和行业机构,以及七百多位专家学者,见证了中国AI学术力量和产业力量的崛起。
这个中国AI酝酿量变的过程,百度的身影一直都在。
早在2010年,大部分人对AI的想象,还跟科幻电影一样,觉得非常遥远、看不懂的时候,百度已经开始积累AI技术。2010年,王海峰加入百度,推动NLP、知识图谱、深度学习等AI技术进入新的应用空间。
百度技术进入了新的阶段,一系列AI布局接连启动。比如2010年成立的百度自然语言处理部(NLP),是百度历史最悠久的基础技术部门之一;2013年,百度深度学习研究院(IDL)成立,是中国产业界最早触摸深度学习技术的机构之一。随后百度又相继打造了大数据实验室BDL、硅谷人工智能实验室SVAIL、百度研究院等研究机构。
正是与AI的结缘够早、够深,百度才能在人工智能领域达成全面领先,第一个看到未知的远处风景。
王海峰,作为推动AI产学研融合的一面旗帜,是“吴文俊奖”十二年历史中,首个“吴文俊人工智能杰出贡献奖”的获得者。
王海峰团队的“知识与深度学习融合的通用对话技术及应用”,则拿下了吴文俊人工智能科技进步奖首个特等奖。
从中,我们也可以看到,“吴文俊奖”究竟在嘉奖什么。
能够让代表中国人工智能领域最高荣誉的“吴文俊奖”,打破常规,因为百度AI不断深入技术无人区,主动探索那些未被发觉的地带。
以此次获“特等奖”的 “知识与深度学习融合的通用对话技术及应用”为例,这一研究项目解决了该领域的四方面技术难题:
提出了基于知识统一表示的通用对话管理技术,解决了对话不连贯的难题;提出了融合知识的流式对话语音识别技术,解决了对话听不清的难题;提出了知识增强的通用对话理解技术,解决了理解不准确的难题;提出了基于隐变量与知识的对话生成技术,解决了回复有错误的难题。
王海峰在发表获奖感言时提到:“通用对话技术是人工智能领域最具挑战性的方向之一,也被认为是通用人工智能的必备能力。团队多年来持续在技术上探索和创新,突破了知识与深度学习融合的通用对话技术,目前已广泛应用于各行各业和人们生产生活中。”
敢登千尺山的百度,最终和“吴文俊奖”一起,见证中国AI一路走来,和世界顶峰相见。
深耕AI路:夯实底层技术,长出文心一言
对于首个吴文俊人工智能科技进步奖特等奖,院士专家给出了这样的评语,“整体技术指标与应用效果达到国际领先水平,极大地提升了我国在这一领域的科技竞争力和产业影响力”。
不难看到,学术高度与产业广度,是百度获奖研究项目的两大特点。
据了解,百度的通用对话技术已经获授权发明专利82项,发表高水平论文36篇,在国际权威评测中获得了11项世界冠军。同时,其也实现了大规模的产业应用,基于小度等业务,支持了5亿智能设备的对话能力提升,服务了超过10亿用户,其应用领域覆盖通信、金融、汽车、能源等20多个行业。
如今,百度在通用对话技术上的积累和突破,也经由技术蓝图,流向了全新的领域。比如让全球瞩目的AI新贵:大语言模型。
很多人都认为,文心一言是全球第一个由科技大厂自研的大语言模型。它的出现让中国快速跻身全球LLM的第一梯队,为中国AI争取到了更大的战略空间,而文心一言的背后,就有成熟的通用对话技术作为支撑。
对话增强是文心一言的核心技术特征之一,让文心一言具备更强的上下文理解、多轮对话能力,强化文心一言对话的完成度、连贯性、合理性,而对话增强,就是百度基于通用对话技术优势的再创新。百度提出了全球首个基于隐空间的生成式开放域对话大模型文心PLATO,不断提高模型的内容丰富性和连贯性。文心PLATO是百度研发的具有大规模参数的中英文对话预训练生成模型,经历多次升级,现已升级到百亿参数的文心PLATO版本。正是长期积累下来的通用对话技术,让文心一言具备了对话增强这个关键优势。
除了对话增强之外,文心一言还具备知识增强、检索增强等技术特点。
在知识增强方面,得益于百度构建的5500亿事实的知识图谱,以及早在2019年3月就提出了知识增强的语义理解框架ERNIE,百度不断强化语义理解技术能力。
文心一言基于庞大的知识图谱来做知识增强,从海量数据和大规模知识中融合学习,还可以直接调用知识图谱做知识推理,自动构建提示,高效满足用户需求。
而检索增强也是基于百度已有的语义理解技术优势的创新。百度拥有世界上最大的中文搜索引擎,百度搜索已经发展到基于语义理解和匹配的新一代搜索架构,深入理解用户需求和网页内容,进行语义匹配,得到更精准的搜索结果,进而为大模型提供准确率高、时效性强的参考信息,更好地满足用户需求。
更值得一提的是,文心一言还在飞速成长中。
王海峰在一次采访中透露,在内测时,有员工疑惑,文心一言怎么写不好藏头诗,而当时文心一言还处于学习阶段,王海峰很有信心,说“差不多明后天就能学会了”,果然第二天文心一言就能写藏头诗了。王海峰说:“信心就是因为我们对系统的能力有比较准确的把握。”
最近,飞桨又专门针对文心一言做了专项优化,一个月内迭代了4次,推理性能提升10倍,其中业内首创的支持动态插入的分布式推理引擎,推理性能提升了123%。
可以说,文心一言的各个方面,都展现出了百度夯实底层技术,系统化积累技术优势的技术战略。显然,王海峰的技术视野与技术关怀,在其中扮演了关键角色。
技术攀登是一个非常漫长的过程,如果没有对于技术动能的持续补充,可能因为“体力不支”,而无法坚持到登顶的那一天。基于文心大模型 ERNIE 及对话大模型 PLATO的文心一言,能走的更远、更快,靠的正是百度AI技术的持久续航。
青山遮不住:百度AI,向产业冲锋
从“训大模型”到“用大模型”,已经成为中国产学政各界这一波大语言模型浪潮的深层期待。
如何穿越AI与产业之间的无人区,走向千行百业,与社会更具深度地融合,是今天摆在科技企业面前的新挑战。
文心一言的技术核心,来自百度积累了十余年的四层架构:芯片、框架、模型、应用,这一整套技术体系,共同支撑文心一言向产业冲锋。
芯片层,百度有自研的量产AI芯片昆仑。同时,百度还跟硬件行业上下游建立了紧密的合作,与主流国内外芯片厂商进行了非常好的适配,所以任何一家有合适的AI算力,文心一言都能用得起来,这就保障了后续AI业务发展所需要的算力资源。
框架层,百度自主研发的中国首个开源开放的产业级深度学习平台飞桨,支撑了大模型的灵活开发、高效训练和推理部署。
模型层,文心大模型 ERNIE 及对话大模型 PLATO等自研模型已经证明了,文心一言的核心技术都是掌握在中国企业手里。
应用层,百度已经打造并开放了200多项AI能力和应用,并在飞桨平台提供大量应用模型、开发者工具,以及定制化服务,帮助各行业更简单地将AI用起来。
这四层架构,合在一起,展现出百度AI布局的全面与长远,也成为文心一言持续向上攀爬的保障。
用王海峰的话说,有了百度独特的技术和积累,能给普通用户带来不一样的感受:一是效果更好,文心一言能记住上下文,给出更新的信息、更准确的知识;二是效率更高,模型推理效率提高,用户等待的时间更短了。
从中,我们能看到,百度AI在产业中鲜明的差异化特征:
1.向上,保持核心技术突破,勇于探索技术无人区,主动承担了全球范围内底层技术的突破任务,保持着中国AI与世界最前沿的并列或领先。
2.向下,做实AI基础设施,确保产业自主可控。大模型训练推理,需要芯片、框架、开发工具等一系列软硬件,核心基础设施不能掌握在自己手里,产业使用时就会有顾虑。百度在AI领域四层架构实现了全面的核心技术自研,解除AI产业化和产业AI化的后顾之忧。
3.向前,带头构建产业生态,打通大模型到产业的关隘。通过开源开放的飞桨生态,以及飞桨产业赋能中心,把AI技术沉淀下去、开放出去、让各行业都用起来,帮助更多人爬上AI这座高峰,看见路前方的风景。
此时再回眺百度AI,会发现领先不是一个结果,而是由一个个技术脚印所串联起来的过程。这些过往凝结在一起,才有了我们熟悉的百度AI,与新生的文心一言。
获得“吴文俊奖”,顶峰之上的百度,正在攀登更高的山。大模型所开启的AI与产业融合之路,有如一片未知的土地,蕴藏着极大价值可能性,但也充满了变数,需要勇敢者先抵达彼端,一探究竟。
十二年弹指一瞬,走在科技前沿的百度,已踏上天地重开一境宽的新旅途。青山万丈,遮不断赤子的眼眸;雀喧鸠聚,挡不住行者的脚步。
全部0条评论
快来发表一下你的评论吧 !