来源:佛山智能装备技术研究院
近日,佛山智能装备技术研究院(简称“佛山智能装备院”)与佛山华数机器人有限公司(简称“华数机器人”)在具身智能工业机器人领域的研究成果“Advancing general robotic manipulation with Multimodal Foundation Models: an embodied Al paradigm”刊登在中科院一区TOP级SCI期刊SCIENCE CHINA Technological Sciences。该研究成果由佛山智能装备院关键技术实验室创新团队牵头,实验室主任黄石峰博士为第一完成人,中国工程院外籍院士张建伟教授为通讯作者,北京大学前沿计算研究中心、银河通用机器人有限公司创始人兼CTO王鹤教授,华数机器人杨海滨总经理,佛山智能装备院周星常务副院长,德国汉堡大学陈文凯博士后研究员为共同完成人。
智能工业机器人势在必行
当前的机器人技术能否全面胜任人类生产生活中的所有劳动呢?实际上,机器人的应用仍然受到限制,尤其是在日常场景中常见的开放、非结构化环境中,比如服务、医疗、农业、建筑以及众多其他领域,如图2 所示。从通用机器人操作的角度来看,挑战源于以下方面:
操作门槛高:需要人类操作员掌握专门的机器人编程语言,并深入理解手头的任务。这些任务需要被分解为机器人能够执行的一系列连续动作,即动作层面的机器人程序开发。这种方式导致了高昂的劳动力成本,尤其是在诸如船舶制造这类多品种、小批量的应用场景中。
自主任务执行能力有限:机器人缺乏面向高层级抽象任务的自主动作生成能力(自主决策、自主规划、自主执行能力弱)。这一限制使得传统机器人不适合部署在那些需要与人类进行复杂交互和无缝协作的开放、非结构化环境中。
操作技能欠佳:机器人在许多任务上表现不佳,尤其是那些需要灵巧操作技能的任务。例如,在鞋厂中,仍然需要工人手动穿鞋带。一方面,机器人在获取特定操作所需的专业且复杂的技能方面面临重大挑战。另一方面,它们执行这些技能时往往较为僵硬且效率低下,缺乏人类操作时的流畅性。
图2 机器人低渗透率的应用场景:(a) 造船业;(b) 家庭服务;(c) 服装厂的叠衣应用;(d) 鞋厂的穿鞋带应用;(e) 建筑工地;(f) 新能源汽车电池的极耳组装
具身智能与生成式人工智能
近年来,具身智能(指拥有物理实体的人工智能系统)的兴起,似乎为通用机器人操作技术的发展提供了一条充满希望的路径。在这种背景下,机器人仿佛拥有了一颗智能的“大脑”,展现出了适应多样环境的潜力以及执行各类任务的灵活性。这些特质对于通用机器人操作而言至关重要。然而,早期将人工智能与机器人技术相结合的尝试并未实现如此高水平的智能。一个有趣的现象是:具身智能的出现,几乎与生成式人工智能的重大突破同步发生,其中的典型代表就是2022年末发布的ChatGPT,它是大语言模型(LLMs)发展历程中的一项里程碑式成果。这些创新的交汇引发了一些发人深省的思考:
为什么大语言模型能够推动具身智能的发展?
仅凭大“语言”模型,是否足以实现我们所期望的通用机器人操作愿景?
因此,这促使我们深入思考具身智能的本质,并评估在通用机器人操作方面大语言模型的能力和局限性。我们对上述问题的看法如下。
大语言模型(LLMs)基于在大规模互联网数据上进行预训练,通过无监督学习的方式在语言建模中预测下一个词元,它们在上下文理解以及通过思维链提示进行连续对话方面表现了出色的能力。此外,借助由缩放定律(scaling laws)所支撑的超大型模型,大语言模型在常识知识和推理方面展现出了卓越的性能。传统意义的工业机器人在人们心目中的主流形象更像是单纯的“自动化设备”,而非“智能体”。几十年来,机器人一直受困于缺乏一个类似智能大脑的系统。近期的研究进展表明,大语言模型可以为机器人配备一个类似大脑的系统。大语言模型促进了操作员与机器人之间的自然语言交互,使机器人能够有效地理解人类意图并做出决策。因此,大语言模型有潜力克服“操作门槛高”这一瓶颈,并缓解在开放、非结构化环境中“自主任务执行能力有限”所带来的挑战。
然而,具身智能的内涵强调的是智能源于智能体的实体(物理身体)与其现实世界环境之间的动态交互,并且在其整个生命周期中持续学习与发展。因此,具身智能与传统人工智能(即离身智能)的根本区别在于具身智能中存在物理实体。机器人操作是具身智能的一个基础研究课题,它超越了基于语言的反馈模式,涵盖了机器人本体感受、触觉感知、力/扭矩反馈、视觉等多个方面。这些丰富的感知模式对于识别物体的可供性以及智能的形成至关重要。例如,当我们抓取一个物体时,我们会利用触觉反馈来评估物体的质地和重量,而视觉输入则有助于确定物体的形状和方位。这些综合的感知模式使我们能够了解如何操作该物体。显然,仅靠大语言模型(仅基于语言)无法满足具身智能的要求,因为它们缺乏机器人操作所需的面向动作的能力。因此,我们需要更强大的基础模型,这些模型能够整合机器人所感知到的各种模态信息,比如视觉语言模型(VLMs)和视觉语言动作模型(VLAs),它们统称为多模态基础模型(MFMs)。
图3 典型的端到端架构
智能工业机器人的体系架构
在具身智能范式下,多模态基础模型(MFMs)能够推动通用机器人操作技术的发展。如今,适用于具身智能的技术框架仍然是一个开放话题,大致可分为两类:1)端到端(E2E)架构和2)模块化(或分层式)架构。下面,我们将对这两类架构分别进行讨论。
端到端架构直接将原始传感器数据映射为动作,无需中间的手工设计模块,如图3所示。这种方法避免了模块间信息传输过程中的失真,减少了累积误差和延迟,并实现了更无缝的集成。此外,端到端流程能够更有效地捕捉人类技能,因为抽象的动作往往难以用分析方法精确建模。特斯拉的完全自动驾驶第12版(FSD V12)就是端到端实现的一个突出例子。
尽管端到端架构具有很大的潜力,但其局限性也不容忽视。一个完全的端到端架构就像一个黑箱模型,缺乏可解释性和安全保障。其性能在很大程度上依赖于训练阶段大规模高质量数据集的可用性,并且要实现高泛化能力需要大规模的神经网络架构。这种对大量数据和复杂模型的依赖,会在数据标注成本、计算资源以及过拟合风险等方面带来重大挑战。此外,由于缺乏可解释性,很难验证模型的决策,这对安全关键型应用是不利的。为了缓解这些问题,需要进行广泛的验证和测试,并且可以采用增强模型可解释性的技术,以便更好地理解决策过程。总的来说,我们认为端到端架构可以作为一个长期的发展目标。
图4模块化框架:“小脑 - 大脑” 耦合、复杂任务拆解、元技能组合、融合建模学习
对于大多数机器人制造商而言,一种更具可部署性且更具成本效益的解决方案是采用模块化架构。在这种架构中,诸如感知、规划和控制等模块是独立设计的。我们提出了一种模块化架构解决方案,其特点是 “大脑-小脑” 耦合、复杂任务拆解、元技能组合、融合模型学习,如图4所示。多模态基础模型(MFMs)的功能类似于大脑,支持多模态感知、推理和决策,同时也满足自然的人机交互(nHRI)要求。在这种情况下,人类用户可以通过各种形式传达任务,包括语音、文本和图像,并且机器人能够理解所接收信息背后的潜在意图。此外,多模态基础模型以自上而下的方式(任务规划)将任务,尤其是复杂且长程任务,拆解为更简单的子任务。然后,每个子任务都可以映射为多种技能的组合。当前层面的技能颗粒度仍然相对较粗,可以进一步拆解为元技能。在机器人领域,对于元技能(primitive skills)的严格定义尚未标准化。我们将元技能视为构成更复杂技能的动作单元。元技能的关键特征如下:
原子性:元技能是基本动作,是构建复杂技能的基础。这些动作通常简单直接,例如移动、扭转、抓取、放置、按压等。
可复用性:由于其原子性,元技能可以在各种任务中重复使用和组合。例如,抓取技能不仅可以应用于拾取物体,还可以用于操作工具。
可组合性:通过组合不同的元技能,可以创建更复杂的技能和任务序列。例如,将抓取、移动和放置技能相结合,就可以实现搬运和重新放置物体的能力。
对于元技能的描述可以表述为:[动作] + [工具] + [被操作物体] + [目标位置] + [条件]。需要注意的是,即使是相同的动作,当它与不同的工具、物体或其他组成部分相结合时,仍然被视为相同的元技能。
现实生活中的任务几乎是无穷无尽的,并且常常需要掌握一些意想不到的技能,同时环境也会随着时间而变化。因此,对于元技能的策略学习,比如利用强化学习(RL)或模仿学习(IL)来掌握这些技能,应该设计成一种持续学习的范式,以避免对先前学到的技能产生灾难性遗忘。我们建议使用轻量级模型进行策略学习,以便于训练并确保能够实时响应。此外,所提出的策略学习架构(即“小脑”部分)是融合建模方式。基于机理的方法可以作为数据驱动策略学习的辅助组成部分。例如,在以插入操作为元技能的精密装配任务中,将接触力/扭矩转化为机器人关节动作的策略模型可以分解为两个部分:1)从末端执行器感知的六维力/扭矩向量到工具的六维位姿调整的映射,利用数据驱动的学习策略来封装人类的专业知识;2)从工具的末端执行器位姿到机器人关节构型的映射,这可以利用基于机器人原理的解析逆运动学方法有效地计算。此外,一些涉及几何元素的元技能,如直线运动、圆周运动或摆线运动,可以直接使用解析方法来构建。这些都是传统机器人很容易掌握的经典技能,但当通过数据驱动的方法学习时,往往会得到不尽如人意的结果(例如,精度低)。这种融合建模架构降低了策略学习的复杂性,同时提供了更好的物理可解释性。
所提出的模块化架构强调了复杂任务的拆解以及元技能的组合,同时还探讨了生成式人工智能如何与机器人的经典控制系统相集成。事实上,任务拆解和元技能组合背后的原理是受到人类认知的启发。当面对一项长期任务时,人类会自然而然地将其拆解为较小的子任务。人类智慧的一个关键方面在于能够从一个示例推广到另一个示例,这使我们能够在各种不同的情境中灵活运用所学知识。例如,掌握了“插入”这样的元技能后,我们就能执行一系列广泛的相关任务,比如插入三脚电源插头、USB接口,或者将机械轴装配到孔中,而无需针对每个单独的任务重新学习基本技能。这种卓越的泛化能力源于对这些操作所需的底层元技能的深入掌握。
具身智能在通用机器人操作领域的重点发展方向
最后,为了推动具身智能在通用机器人操作领域的发展,应着重关注以下几个方面:1)开发高性能的人工智能芯片以及面向具身智能的网络体系架构,以便在终端平台上部署大型模型并实现实时计算。2)探索多具身智能的认知演化与协作,构建安全、具有因果关系且值得信赖的世界模型。3)实现基于词元化的多模态集成优化,开发用于透明决策的可解释人工智能理论,并致力于减少多模态基础模型产生幻觉的情况。4)利用真实世界的数据和合成数据,为各个领域创建高质量的数据集。5)构建具有可扩展功能和长期记忆的特定领域模型,以支持垂直应用。6)通过零样本模拟到真实的迁移,提高学习复杂技能的效率,并应对在现实世界环境中实现终身技能发展所面临的挑战。
全部0条评论
快来发表一下你的评论吧 !