2024年AI的四大热门趋势

软件质量报道 2024-01-09 1326

电子说

1.4w人已加入

描述

我们决定忽略显而易见的事情。我们知道，大型语言模型将继续占据主导地位。监管机构将变得更加大胆。人工智能的问题——从偏见到版权再到末日论——将影响研究人员、监管机构和公众的议程，不仅在 2024 年，而且在未来几年。

相反，我们挑选了一些更具体的趋势。以下是 2024 年需要注意的事项。

1. 定制聊天机器人

你会得到一个聊天机器人！你会得到一个聊天机器人！到2024年，在生成式人工智能方面投入巨资的科技公司将面临压力，需要证明他们可以从他们的产品中赚钱。为此，人工智能巨头谷歌（Google）和OpenAI正在大举押注：两家公司都在开发用户友好的平台，允许人们定制强大的语言模型，并制作自己的迷你聊天机器人来满足他们的特定需求，而无需编码技能。两家公司都推出了基于网络的工具，允许任何人成为生成式人工智能应用程序开发人员。

到 2024 年，生成式 AI 实际上可能对普通的非技术人员有用，我们将看到更多的人修补一百万个小 AI 模型。最先进的 AI 模型，如 GPT-4 和 Gemini，是多模态的，这意味着它们不仅可以处理文本，还可以处理图像甚至视频。这项新功能可以解锁一大堆新应用程序。例如，房地产经纪人可以上传以前房源中的文本，只需单击一个按钮即可微调强大的模型以生成类似的文本，上传新房源的视频和照片，只需让定制的 AI 生成房产描述。

但是，当然，这个计划的成功取决于这些模型是否可靠地工作。语言模型经常会编造一些东西，而生成模型则充满了偏见。它们也很容易被黑客入侵，特别是如果它们被允许浏览网页。科技公司还没有解决这些问题。当新奇感消失时，他们将不得不为客户提供处理这些问题的方法。

2. 生成式人工智能的第二波浪潮将是视频

令人惊讶的是，梦幻般的事物变得如此迅速。2022 年，第一批生成逼真图像的生成模型成为主流，并很快变得司空见惯。OpenAI 的 DALL-E、Stability AI 的 Stable Diffusion 和 Adobe 的 Firefly 等工具充斥着互联网上令人瞠目结舌的图片，从巴黎世家的教皇到获奖艺术，应有尽有。但这并不全是好玩的：对于每一个挥舞着绒球的哈巴狗来说，还有另一件仿冒的幻想艺术或性别歧视的性别刻板印象。新的领域是文本到视频。期望它把所有关于文本到图像的好的、坏的或丑陋的东西都放大。

一年前，我们第一次看到了生成模型在训练将多个静止图像拼接成几秒钟长的剪辑时可以做什么。结果是扭曲和生涩的。但技术已经迅速改进。

Runway是一家制作生成视频模型的初创公司（以及共同创建Stable Diffusion的公司），每隔几个月就会发布其工具的新版本。它的最新型号称为Gen-2，仍然生成只有几秒钟长的视频，但质量是惊人的。最好的剪辑离皮克斯可能推出的并不遥远。

Runway 设立了一年一度的 AI 电影节，展示使用一系列 AI 工具制作的实验电影。今年的电影节有60,000美元的奖金，10部最佳电影将在纽约和洛杉矶放映。顶级工作室注意到这一点也就不足为奇了。包括派拉蒙和迪士尼在内的电影巨头现在正在探索在其制作流程中使用生成式人工智能。该技术被用于对演员的表演进行口型同步，以配音多个外语配音。它正在重塑特效的可能性。2023 年，《印第安纳琼斯与命运转盘》由一位衰老的深度伪造哈里森福特主演。这仅仅是个开始。

在大银幕之外，用于营销或培训目的的深度伪造技术也在起飞。例如，总部位于英国的 Synthesia 开发的工具可以将演员的一次性表演变成源源不断的深度伪造化身，只需按一下按钮即可背诵您给他们的任何剧本。据该公司称，其技术现在被 44% 的财富 100 强公司使用。

用这么少的东西做这么多事情的能力给演员带来了严重的问题。对工作室使用和滥用人工智能的担忧是去年SAG-AFTRA罢工的核心。但这项技术的真正影响才刚刚显现出来。“电影制作的工艺正在发生根本性的变化，”独立电影制片人、专门从事创意技术咨询公司Bell & Whistle的联合创始人Souki Mehdaoui说。

3. AIGC的选举虚假信息将无处不在

如果最近的选举有什么可取之处，那么人工智能生成的选举虚假信息和深度伪造将是一个巨大的问题，因为 2024 年将有创纪录的人数参加投票。我们已经看到政客们将这些工具武器化。在阿根廷，两名总统候选人创建了人工智能生成的对手图像和视频来攻击他们。在斯洛伐克，一位自由派亲欧洲政党领导人威胁要提高啤酒价格，并拿儿童色情制品开玩笑，在该国选举期间像野火一样传播开来。在美国，唐纳德·特朗普（Donald Trump）为一个使用人工智能生成带有种族主义和性别歧视比喻的迷因（memes）的团体欢呼。

虽然很难说这些例子对选举结果有多大影响，但它们的扩散是一个令人担忧的趋势。在网上识别什么是真实的将变得比以往任何时候都更难。在已经激化和两极分化的政治气候中，这可能会产生严重后果。

就在几年前，创建深度伪造需要先进的技术技能，但生成式人工智能使它变得非常容易和容易获得，而且输出看起来越来越逼真。即使是信誉良好的来源也可能被人工智能生成的内容所愚弄。例如，用户提交的人工智能生成的图像，旨在描绘以色列-加沙危机，已经充斥着像Adobe这样的库存图像市场。

对于那些与此类内容扩散作斗争的人来说，来年将是关键的一年。跟踪和缓解其内容的技术仍处于开发的早期阶段。水印，例如 Google DeepMind 的 SynthID，仍然大多是自愿的，并非完全万无一失。众所周知，社交媒体平台在删除错误信息方面进展缓慢。准备好进行大规模的实时实验，以破坏人工智能生成的假新闻。

4. 多任务机器人

受到生成式人工智能当前繁荣背后的一些核心技术的启发，机器人专家开始构建更多可以执行更广泛任务的通用机器人。在过去的几年里，人工智能已经从使用多个小模型（每个模型被训练来执行不同的任务——识别图像、绘制图像、为它们添加标题）转向单个、单一的单体模型，这些模型经过训练可以完成所有这些事情，甚至更多。通过向 OpenAI 的 GPT-3 展示一些额外的示例（称为微调），研究人员可以训练它解决编码问题、编写电影脚本、通过高中生物学考试等。多模态模型，如 GPT-4 和 Google DeepMind 的 Gemini，可以解决视觉任务和语言任务。同样的方法也适用于机器人，因此没有必要训练一个机器人翻转煎饼，另一个机器人打开门：一个放之四海而皆准的模型可以让机器人能够同时处理多项任务。2023 年出现了该领域的几个工作实例。今年6月，DeepMind发布了Robocat（去年Gato的更新），它通过反复试验生成自己的数据，以学习如何控制许多不同的机器人手臂（而不是更典型的一个特定手臂）。今年10月，该公司与33个大学实验室合作，推出了另一个通用机器人模型RT-X，以及一个大型的新通用训练数据集。其他顶级研究团队，如加州大学伯克利分校的RAIL（机器人人工智能和学习），正在研究类似的技术。

问题是缺乏数据。生成式 AI 利用互联网大小的文本和图像数据集。相比之下，机器人很少有好的数据来源来帮助它们学习如何完成我们希望它们完成的许多工业或家庭任务。

纽约大学的勒雷尔·平托（Lerrel Pinto）领导了一个团队来解决这个问题。他和他的同事们正在开发技术，让机器人通过反复试验来学习，并随时提出自己的训练数据。在一个更加低调的项目中，平托招募了志愿者，使用安装在垃圾捡拾器上的iPhone摄像头从他们家中收集视频数据。在过去的几年里，大公司也开始发布用于训练机器人的大型数据集，例如 Meta 的 Ego4D。

这种方法已经在无人驾驶汽车中显示出前景。Wayve、Waabi 和 Ghost 等初创公司正在引领新一波自动驾驶 AI，它使用单个大型模型来控制车辆，而不是多个小型模型来控制特定的驾驶任务。这让小公司赶上了 Cruise 和 Waymo 等巨头。Wayve现在正在伦敦狭窄繁忙的街道上测试其无人驾驶汽车。世界各地的机器人都将获得类似的推动力。

审核编辑：刘清

打开APP阅读更多精彩内容