一种基于自然语言的轨迹修正方法

3D视觉工坊 2024-01-19 565

描述

来源：3D视觉工坊

本研究提出了ExTraCT框架，利用自然语言进行轨迹校正。该框架结合了大型语言模型（LLMs）用于自然语言理解和轨迹变形函数。ExTraCT能够根据场景在线生成轨迹修改特征及其自然语言描述，通过LLMs实现用户话语和特征描述的语义匹配，进而将轨迹修改函数应用于初始轨迹，实现对未见过的轨迹和物体配置的泛化。通过模拟和物理机器人手臂上的用户研究，我们验证了使用ExTraCT方法变形的轨迹在80%情况下更准确且更受欢迎，表现优于基线方法。该系统还展示了在操纵任务和辅助喂食任务中的多功能性。

读者理解：

这篇文章提出了一种基于自然语言的轨迹修正方法，该方法结合了大型语言模型 (LLM) 和轨迹变形函数。LLM 用于理解自然语言，轨迹变形函数用于根据语言描述对轨迹进行修正。

该方法的优点是：

使用自然语言可以简化轨迹修正的操作，使其更容易被人类理解。

使用 LLM 可以提高轨迹修正的准确性和灵活性。

该方法的缺点是：

LLM 的训练需要大量的数据，这使得该方法的应用受到一定的限制。

1 引言

本文介绍了一个模块化的框架（ExTraCT），将大型语言模型（LLMs）与轨迹变形函数集成，用于通过自然语言进行轨迹校正，而无需进行端到端训练。该框架通过将语言理解与轨迹变形分开，实现了更准确的指令解释，并可泛化到不同的物体配置和轨迹。我们的方法通过用户研究表明，在大约80%的测试案例中，相比使用LLMs但以端到端方式训练的最新方法，我们的方法在准确性和评分上更高。此外，我们的方法在解决失败案例方面也表现出改进的潜力。

2 方法

本文介绍了一种用自然语言校正来修改机器人操纵器轨迹的方法。其核心是ExTraCT框架，结合了大型语言模型（LLMs）和轨迹变形函数。主要步骤包括：

问题定义：目标是根据给定环境E、语言校正l和初始轨迹ξ0，找到最可能的轨迹ξ∗。

特征：将可能的轨迹ξ约束在有限的特征集Φ中。特征ϕ对应于轨迹的变形，可以是特定于场景或场景无关的。文本描述和最优特征选择：为每个特征ϕ生成文本描述Tϕ，并利用大型语言模型（LLMs）进行语义匹配，确定最可能的特征ϕ∗，从而获取最可能的轨迹ξ∗。

变形函数：根据选定的特征ϕ∗，使用变形函数δ对初始轨迹ξ0进行修改，考虑环境和运动规划器的约束，最后通过轨迹优化器得到最终的轨迹ξ∗。

该方法突破了以往直接学习自然语言与机器人轨迹或动作之间映射的方式，而是通过语言理解和轨迹变形两个步骤分别进行，提高了指令解释的准确性和可靠性。这种方法在模拟和真实机器人环境的用户研究中显示出了较高的准确性和偏好度。同时，还展示了该框架在不同任务中的应用灵活性，包括物体操纵和辅助喂食等方面。

3 总结

本文提出了ExTraCT框架，结合了LLMs的语言模型能力和手工制作特征的轨迹变形，以实现更精确、可解释、可泛化的轨迹校正方法。该方法对理解和执行语言校正取得了改进，并展示了对失败原因的透明解释。未来的工作将致力于扩展特征空间，处理更复杂的语言表达，并探索双向机器人-用户交流。

审核编辑：汤梓红

打开APP阅读更多精彩内容