合成数据对于 AI 开发至关重要

靓仔峰 2022-07-20 1226

电子说

1.4w人已加入

今天的高级人工智能开发仍然深深植根于 1950 年代的计算机科学哲学，包括“垃圾进，垃圾出”这句话。这句格言提醒我们，人工智能模型的好坏取决于它所训练的数据。

从晚期癌症筛查到推荐一部新电影，数据科学家需要大量多样的数据集来训练 AI 模型。对于现实世界的数据来说，这可能是一个重大挑战。通常出于隐私原因受到保护，真实数据可能很难获得，而且获取成本也很高，而且可能不像预期的那样多样化。

先进技术

Rev Lebaredian（来源：英伟达）

幸运的是，人工智能可以通过合成数据集自行救援——计算机生成的模拟可确保提供充足的多样化和匿名训练数据。数据是完全匿名的，可以使用各种方法创建，例如通用对抗网络或使用更多非 AI 程序的模拟器，以确保与真实数据非常相似。通过使用合成数据集，人工智能开发人员可以从更高性能和更健壮的模型中受益。

数据的骗局

随着开发人员达到现成数据的极限，他们很快将需要寻找其他地方来改进他们的模型。合成数据是计算机模拟或算法生成的信息，可替代现实世界的数据，以填补模型需求和数据可用性之间的差距。

数据科学家有很多方法可以生成合成数据。模拟和 3D 渲染是很好的起点。例如，一辆自动驾驶汽车通常是通过让它在真正的道路上行驶之前驾驶数千英里的虚拟道路来训练的。通用对抗网络，即创建新数据的生成模型，也可用于数据生产。多亏了这些，合成数据收集变得比以往任何时候都更容易获得和更有效。

分析公司 Gartner 最近报告*，合成数据正处于从一个杂耍变成未来人工智能背后的主要力量的轨道上。Gartner 在一项研究中指出，“合成数据通过允许较小的组织在没有大量数据的情况下创建 AI 模型，有效地解决了他们的冷启动问题，从而使竞争环境民主化。”

人工数据满足 AI 的关键需求
AI 已经无处不在，因为它已经通过智能设备和技术融入我们的生活，涵盖医疗保健、零售、娱乐、自动驾驶汽车、智能空间等领域，这些智能设备和技术正在加速我们走向未来。

将人工智能用作数字镜子是其发展的下一步。然而，特定环境中的变化可能是无数的。衬衫的颜色可能有多种色调和色调。房间的灯光随着太阳的移动或灯具的开启而变化。

这个隧道中车辆的场景使用了间接照明。这是一个难以实时准确渲染的场景示例，但在 Nvidia Drive Sim 中由 Nvidia Omniverse RTX 渲染器启用（来源：Nvidia）

捕捉条件的复杂性使得各种合成数据集对于 AI 模型制作至关重要。与从主要来源收集数据所需的时间和费用相比，可以收集合成数据为数字双胞胎提供动力。这可以最大限度地访问大量不同的数据，并增加免于隐私问题的好处。

Gartner 注意到这一人工智能资产的重要性，还指出，“合成数据通常被视为质量较低的替代品，只有在真实数据难以获取、价格昂贵或受到监管限制时才有用。这错过了合成数据的真正潜力。事实是，如果没有合成数据，您将无法构建高质量、高价值的 AI 模型。”

现实真的很随机

多样化的训练数据集是构建 AI 模型的关键，但现实世界的数据可能不足。域随机化的内置功能使机器人模拟应用程序和合成数据生成工具 Nvidia Isaac Sim 能够随机改变模拟中的纹理、颜色、照明和位置。

Nvidia Drive Sim 也是如此，这是一个用于测试自动驾驶汽车的模拟平台。它能够改变路牌的大小或语言或太阳的位置。

O'Reilly Media 的报告“使用合成数据加速 AI ”中强调了这些功能，该报告强调安全和效率是模拟中的优先事项。根据该报告，“使用合成数据可以解决的一些问题成本太高或太危险（例如，在训练模型控制自动驾驶汽车的情况下），无法使用更传统的方法解决，或者根本无法解决。”

Nvidia Isaac 模拟引擎创建了更好的逼真环境，并简化了合成数据生成和域随机化，为工程师和开发人员在广泛的应用程序中训练和部署机器人构建数据集（来源：Nvidia）

随机化条件（例如照明、颜色和对象放置）对于创建各种合成训练数据以实现更准确的 AI 模型至关重要。这些数字世界的变化反映了现实生活中经常出现的意外和不可预测的变化。

例如，在工厂中，当不同的工人处理同一个物体时，一个工人处理的物体可能最终处于不同的位置。在训练机器人如何使用合成数据和模拟在真实工厂中工作时，环境条件（如定位）的变化非常重要。这些能力使强大的智能工厂和城市的生产成为可能。

图形与人工智能之间的关键环节

除了虚拟城市和工厂，合成数据为计算机图形学的复兴铺平了道路，因为模拟 3D 世界现在是训练 AI 模型的关键组成部分。在 3D 世界中，物体应该下落，身体部位应该弯曲，皮肤应该被贴上纹理以与人类的所有运动部位非常相似。

个人在虚拟世界中出现的不同方式，具有自然的身体变化、面部特征和行为，说明了合成数据的真正力量。多样化的合成数据可以准确地弥合虚拟世界和现实世界之间的差距，其特征从万有引力定律到身体动作再到皮肤纹理。

人类因不同的肤色、反应和表情而彼此不同，这些都可以在媒体制作和数字复制品中展示。数字人类只是难题的一部分，因为照明和物体定位等环境条件在计算机图形和模拟中同样重要。

例如，自动驾驶汽车需要能够在太阳低落时做出反应，这可能会妨碍能见度。合成数据可以通过创建更真实的虚拟环境来帮助改善模拟世界，这些虚拟环境是真正的数字双胞胎。生成物理上准确的、基于物理的环境和人类极具挑战性，需要高级模拟、高性能计算资源和大量数据。

Nvidia Drive Sim 使用高保真和物理精确的模拟来创建一种安全、可扩展且具有成本效益的方式，将自动驾驶汽车带到我们的道路上（来源：Nvidia）

人工智能推进自己的未来

人工智能使用合成数据进行自我改进的能力使其成为一项独特而强大的技术。综合数据是提高用于高级模型和模拟的稳健训练数据的质量和数量的关键。

每一波人工智能创新都建立在上一波的基础上。合成数据的机会将超越其在当前人工智能应用中的应用，扩展到农业、自动驾驶汽车、医疗保健、机器人等行业。

在为 AI 开发数据源时，不要让“人工”和“合成”这两个词阻止您。数据可能是人为创建的，但结果对于真正的成功至关重要。很快，将出现一个极其精确的数字现实镜像，使用合成数据高效准确地构建。

——Rev Lebaredian 是 Nvidia 的仿真技术副总裁

*Gartner，“Maverick Research：忘记你的真实数据——合成数据是 AI 的未来”，Leinar Ramos，Jitendra Subramanyam，2021 年 6 月 24 日。

审核编辑黄昊宇

打开APP阅读更多精彩内容