关于生成式AI的关键技术

电子发烧友网 2022-10-17 3602

电子说

1.4w人已加入

描述

电子发烧友网报道（文/李弯弯）生成式AI是指利用现有文本、音频文件或图像等创建新内容的技术。生成式AI可从其数据中学习内容或对象，并运用数据生成全新的、完全原创的、逼真的工件，留下与训练数据相似的特征，不是简单的重复。

生成式AI的关键技术是生成式对抗网络（GANs, Generative Adversarial Networks ），其本质是一种深度学习模型，是近年来复杂分布上无监督学习最具前景的方法之一。

在原理上，生成式对抗网络使用两个神经网络相互对立，一个生成器和一个判别器。生成器或生成网络，负责生成类似于源数据的新数据或内容，判别器或判别网络则负责区分源数据和生成数据。经过交替周期训练，生成器不断学习生成更逼真的数据，判别器则更善于区分假数据和真实数据。渐渐地，双方在对抗中不断完善。

AI作画是生成式AI的典型应用案例。今年9月15日，一位国外游戏设计师的作品《太空歌剧院》夺得美国科罗拉多州博览会艺术比赛数字类别的一等奖。这幅画作完全由AI绘图软件根据文字指令生成。

近年来市面上涌现出了多款AI绘画工具。比如由谷歌推出的Disco Diffusion，这是一款最早流行起来的AI绘图工具。使用这个AI绘画工具，仅仅通过文字输入，就能输出相应的图片。

还有Midjourney，这家公司名称也是Midjourney，创始人是David Holz，Midjourney 是一款输入文字就可以生成高质量图像的AI画画软件，速度达到1分钟出4张图。很多艺术家会使用Midjourney生成自己想要图像作为创作灵感参考。

还有由OpenAI开发DALL·E2，这款AI绘画工具，几分钟就能创建高度逼真的图像。OpenAI称，该工具可用于创建插图、设计产品。OpenAI是在美国成立的一家人工智能研究公司。OpenAI由伊隆·马斯克（Elon Musk）和萨姆·奥特曼（Sam Altman，现任OpenAI CEO）于2015年共同创立，后马斯克在2019年离开了OpenAI。

前不久国内也上线了一个微信小程序——盗梦师，这是一个能根据输入文本生成图片的AI平台，由蓝振忠博士带领的西湖大学深度学习实验室和西湖心辰科技有限公司共同推出。

据介绍，用户输入文字描述后，盗梦师便可生成1:1、9:16和16:9三种比例的图片，还有24种绘画风格可以选择，除了基础的油画、水彩、素描等绘画种类，还包括赛博朋克、蒸汽波、像素艺术、吉卜力和CG渲染等特别风格。

除了AI作画，生成式AI的应用案例还包括生成音频、生成视频、生成文本、医疗保健等，行业分析师预计，这种技术将被广泛用于各行各业，并产生数万亿美元的经济价值。Gartner发布的2022年AI技术成熟度曲线显示：生成式AI、AI大模型等技术在萌芽2年多后已快速步入期望膨胀阶段。

生成式AI的发展可能会使云服务商和芯片厂商受益。生成式AI是计算密集型技术，据了解，Meta和谷歌已经聘请该领域诸多杰出人才，希望将这种先进技术整合到公司的产品中。

今年9月，Meta公司首次推出Make-A-Video。Make-A-Video是Meta内部开发的人工智能系统，可以以利用给定的几个词或几行文字生成一个几秒钟的短视频。最近，谷歌也发布了名为Phenaki的程序代码，可以将文本转换为时长几分钟的视频。

生成式AI需要英伟达、AMD、英特尔等的芯片支持，进行AI模型训练和部署。英伟达首席执行官黄仁勋在日前的会议上谈到，生成式AI是公司最新芯片的关键用途。

不过生成式AI也面临一些挑战，比如AI绘画的原创性和所有权的问题，今年8月29日，一个名叫mimic的AI绘画网站上线了测试版，允许用户上传15至100张图像让AI进行学习，然后输出相同画风的AI画作。然而一些未经授权的画作也被上传学习，把AI生成的画作当做自己的创作进行售卖。AI作画需要利用大量现有图像进行培训，现如今，原始图像的创建者是否对原创风格生成的图像拥有版权仍在争论中。　

审核编辑：彭静

打开APP阅读更多精彩内容