度晓晓1秒1篇高考作文,都是因为预训练大模型

描述

电子发烧友网报道(文/李弯弯)6月7日,百度推出的数字人度晓晓作答了全国新高考Ⅰ卷题为《本手、妙手、俗手》议论文,40秒就根据题目创作了40多篇文章,平均1秒生成1篇,随机抽取其中一篇,其分数赶超约75%高考考生。
 

 百度
 

而这得益于文心大模型最新发布的融合任务相关知识的千亿大模型ERNIE 3.0 Zeus,该模型在学习海量数据和知识的基础上,进一步学习百余种不同形式的任务知识,增强了模型的效果,在各类NLP任务上表现出了更强的零样本和小样本学习能力。
 
基于文心大模型的智能创作
 
大模型是人工智能大基础设施的重要组成,“文心大模型”是百度近几年在花大力气投入研发的技术基础设施。自2019年开始,百度深耕预训练模型研发,并在该年3月率先发布中国首个正式开放的预训练模型ERNIE1.0。
 
去年12月,百度联合鹏城实验室发布了鹏城-百度·文心大模型,这是全球首个知识增强千亿大模型,也目前全球最大中文单体模型,参数规模达到2600亿。
 
在今年5月20日的WAVE SUMMIT 2022深度学习开发者峰会上,文心大模型一次性发布10个新的大模型,涵盖基础大模型、任务大模型和行业大模型三级体系,其中就包括融合任务相关知识的千亿NLP大模型ERNIE 3.0 Zeus。
 
千亿规模参数的NLP基础大模型ERNIE 3.0 Zeus在学习海量数据和知识的基础上,进一步学习百余种不同形式的任务知识,增强模型效果;融合层次化提示的预训练,更好地建模不同任务的共性与特性;将不同任务组织成统一的自然语言形式,统一建模增强模型的泛化能力,其相较于其他NLP大模型,在各类NLP任务上表现出了更强的零样本和小样本学习能力。
 
近年来,百度AI技术加速落地,新兴的AIGC更是引人注目。AIGC是继 UGC、PGC之后新型利用AI技术自动生成内容的生产方式。百度研究院预测,2022年AIGC技术将借助大模型的跨模态综合技术能力,可以激发创意,提升内容多样性,降低制作成本,实现大规模应用。
 
本次度晓晓写高考作文,就是基于飞桨文心大模型实现的AIGC创作,文心大模型具备“知识增强”的核心特点,能从大规模知识和海量数据中进行融合学习,学习效率更高、效果更好,具有通用性好、泛化性强的特点。
 
除了智能写作,在文心大模型的支持下,AI已经具备很强的理解和生成能力,能够实现创意作品的自动生成,包括AI作画、AI写歌、AI剪辑等,未来,基于大模型的AIGC将会开放赋能到更多的内容生产领域。除了在智能创作上外,文心大模型也已经在工业、能源、教育、金融、通信、媒体等诸多行业得到应用。
 
预训练大模型使AI通用性增强
 
大模型是AI领域最重要的前沿技术方向,自2018年OpenAI推出1.1亿参数的GPT以后,谷歌、微软、Facebook等相继推出自己的预训练模型,2020年OpenAI再次推出1750亿参数的GPT-3,更是引发科研机构和企业在大模型研究的竞赛,大模型的参数规模逐渐增加。
 
2021年大模型层出不穷,1月,谷歌发布首个万亿级模型Switch Transformer;3月,北京智源研究院发布悟道1.0,6月发布悟道2.0,参数规模超过百亿;4月,华为云发布盘古大模型,这是业界首个千亿参数中文语言预训练模型;9月,浪潮发布参数量达2457亿的巨量模型“源1.0”;11月,英伟达与微软联合发布5300亿参数的“MT-NLG”;同在11月,阿里达摩院宣布其多模态大模型M6最新参数从万亿跃迁至10万亿,超过谷歌、微软此前发布的万亿级模型,成为全球最大的AI预训练模型。
 
预训练大模型其实是机器学习的一种方式,类比人的学习来看,人的学习可以分成通识教育和专业教育两段,预训练大模型相当于解决机器学习的通识教育。此前,机器学习主要通过标注数据,告诉算法哪个数据是正负样本等进行学习。由于人工智能落地场景很多,每个场景都要采数据、标数据,因此在标注的数量和质量上存在很大的瓶颈。
 
为解决以上问题,自然语言处理领域迎来了一个新的突破:自监督学习,指的是不用人为标注数据,机器可以用一个方法把知识和规律学出来。比如,在模型训练中,如果我们把“中国的首都是北京”这句话中的“北京”盖住,让模型去猜中国的首都是哪里,模型可能会猜一个城市,再把盖的地方翻开,告诉模型是对了还是错了,模型也就得到了反馈。
 
通过设计类似的学习方式,让模型可以在海量的数据当中进行自监督学习。这个机制的好处就是,它可以把天然存在的大量数据利用起来,打破一定要精标数据才能学习的瓶颈,大模型的出现,实际上是为了大幅度降低了行业应用的门槛。
 
还有一个特别容易理解的解释,预训练大模型是在一个原始任务上预先训练一个初始模型,然后在目标任务上使用该模型,针对目标任务的特性,对该初始模型进行精调,从而达到提高目标任务的目的。在本质上,这是一种迁移学习的方法,在自己的目标任务上使用别人训练好的模型。
 
整体而言,预训练大模型的兴起,使得人工智能的通用性进一步增强,大模型具有效果好、泛化性强、研发流程标准化程度高等特点,正在成为人工智能技术及应用的新基座。

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分