什么是AI模型的推理能力

描述

NVIDIA 的数据工厂团队为 NVIDIA Cosmos Reason 等 AI 模型奠定了基础,该模型近日在 Hugging Face 的物理推理模型排行榜中位列榜首。

AI 模型正以惊人的速度与规模不断发展。

但它们缺少了人类与生俱来的哪种能力呢?答案是“常识”。常识是一种通过现实生活经验形成的认知:比如鸟类无法倒着飞、镜子能够反射、冰会融化成水。

对人类而言,这些常识显而易见。但对于需要精准回答复杂问题、在工业仓库或道路等不可预测的物理环境中运行的 AI 模型来说,这些知识必须通过“教学”才能掌握。

为解决这一难题,NVIDIA 正在开发一套测试方案,旨在教会 AI 模型认知物理世界的运行边界。简言之,就是教会 AI 常识。

这些测试被用于开发推理模型,比如 NVIDIA Cosmos Reason。这是一款用于物理 AI 应用的开源视觉语言推理模型(VLM),能够生成具有时间关联性的响应。目前,Cosmos Reason 已在 Hugging Face 的物理推理模型排行榜中位居第一。

相较于传统视觉语言模型,NVIDIA Cosmos Reason 的独特价值在于:它专为加速机器人、自动驾驶汽车及智能空间等物理 AI 的开发而设计,能够基于物理常识知识,对之前没有经历过的场景进行推理。

要让 AI 模型真正理解工业空间、实验室等复杂环境,需从基础认知开始构建。例如,在下方展示的测试中,NVIDIA Cosmos Reason 需要回答关于视频中和相对运动有关的选择题。

NVIDIA Cosmos Reason 评估数据集的示例

什么是 AI 模型的推理能力?

为提升模型的推理能力,NVIDIA 采用‌强化学习‌的方式,让模型学习关于现实世界的物理常识。

举例说明,机器人无法凭直觉分辨左、右、上、下,它们需要通过训练才能理解这些时空概念;用于安全测试,比如汽车碰撞测试的 AI 驱动机器人,也必须经过训练才能理解自身物理形态如何与周围环境互动。

如果在训练过程中没有教会机器人常识,在实际部署时就可能出现问题。

NVIDIA Cosmos Reason 研究科学家 Yin Cui 表示:“如果缺乏对物理世界的基础认知,机器人可能跌倒,或者导致意外损毁物品,进而对人员及环境的安全构成威胁。”

NVIDIA 正通过将人类对物理世界的常识“注入”AI 模型,推动下一代 AI 的发展。

NVIDIA 数据工厂团队由来自生物工程、商业和语言学等多元背景的全球分析师构成,他们致力于开发、分析并整合数十万条数据单元,为生成式 AI 的推理训练提供核心数据支撑。

数据整理流程

NVIDIA 数据工厂团队的核心项目之一,是开发面向物理 AI 应用的世界基础模型。这些虚拟环境能构建深度学习神经网络,基于仿真场景为推理模型训练提供更安全、更高效的支持。

NVIDIA 数据标注团队率先启动流程,他们基于真实世界视频数据设计问答对。视频内容涵盖各类场景,从鸡在鸡舍中活动,到汽车在乡间道路行驶。

例如,某个标注员可能会针对下面的视频提出问题:“画面中的人是用哪只手切意大利面?”

NVIDIA Cosmos Reason 评估数据集的示例

随后,标注员会给出 A、B、C、D 四个选项。模型获取这些数据后,进行推理并选择正确答案。

Yin Cui 表示:“我们本质上是在给模型设计测试题。所有问题都采用选择题形式,就像学生在学校考试中遇到的题目一样。”

这些问答对随后由 Michelle Li 等 NVIDIA 的分析师进行质量检查。

Li 拥有公共卫生和数据分析学背景,这让她能够从更宏观的角度看待所分析的数据。

她说:“对于物理 AI ,我们的特定目标是训练模型理解物理世界,这一目标让我在审核问答对和问题类型时,始终保持全局视角。我会问自己,这些问答对是否符合项目的目标和准则要求?”

之后,数据会由项目的数据工厂负责人审核,确保其符合质量标准并可交付至 NVIDIA Cosmos Reason 研究团队。科学家们随后将数十万条数据单元(即问答对)输入模型,通过强化学习训练其理解物理世界的边界和限制。

推理型 AI 有哪些应用场景?

推理模型的优势在于,它们既能理解自身所处的时空环境,也能预测结果。这类模型可分析情境,生成可能结果的逻辑思维网络,并推断出最可能的场景。

简而言之,推理式 AI 展现了类似人类的思维。它会展示思考过程,让用户能够理解其响应背后的逻辑。

用户可要求模型分析视频内容,如两辆车在路上行驶的场景。当被问到“如果这两辆车在同一车道上相向而行会发生什么?”时,模型能够推理并判定该假设情景的最可能结果,比如两车相撞。

NVIDIA Cosmos Reason 团队首席研究科学家 Tsung-Yi Lin 表示:“我们正在开发一种以物理 AI 为核心的突破性推理模型。“

随着 NVIDIA 持续推进推理模型创新,数据工厂团队的高质量数据生产能力,将对开发能安全与现实世界交互的自主的智能体以及物理 AI 系统起到关键作用。

您可以在 Hugging Face 和 GitHub 预览或下载 NVIDIA Cosmos-Reason1 模型。

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分