谷歌发布人工智能学习模型机器人转换器使其机器人更智能

IEEE电气电子工程师 2023-08-01 1725

描述

据悉，谷歌希望通过发布人工智能学习模型机器人转换器（Robotic Transformer，RT-2）使其机器人更智能。

RT-2是该公司所称的视觉语言动作（VLA）模型的新版本。该模型教导机器人更好地识别视觉和语言模式，以解释指令并推断哪些对象最适合请求。

研究人员在厨房办公室的环境中用机械臂测试了RT-2。结合思维链推理，RT-2可以执行多阶段语义推理。即便是一些抽象概念，RT-2也能理解并指挥机械臂做出正确的动作。比如让它找一把临时用的简易锤子，它会抓起石头；让它给疲惫的人选一款饮料，它会选择红牛；让它把可乐罐移到泰勒·斯威夫特的照片上，它也能顺利完成。

该公司在一篇论文中表示，新模型基于网络和机器人数据进行训练，利用谷歌自己的Bard等大型语言模型的研究进展，并将其与机器人数据（如移动哪些关节）相结合。它还可以理解除英语以外的其他语言的指示。

多年来，研究人员一直试图给机器人灌输更好的推理能力，以解决如何在现实生活中生存的问题。The Verge的James Vincent指出，现实生活中存在着无法妥协的“混乱”。机器人需要更多的指导来为人类做一些简单的事情。

以前，教机器人需要很长时间。研究人员必须单独规划方向。但有了RT-2等VLA模型的强大功能，机器人可以通过访问更大的信息集来判断下一步该做什么。

谷歌首次进军智能机器人始于去年，当时谷歌宣布将在机器人领域使用其LLM-PaLM，创建了名为PaLM-SayCan的系统，将LLM与物理机器人相集成。

责任编辑：彭菁

打开APP阅读更多精彩内容