机器人：AI大模型终端落地的第三大方向？

Felix分析 2024-03-24 4051

描述

电子发烧友网报道（文/吴子鹏）前有AI落地难，如今AI大模型的落地也遇到了一些挑战。虽然各大企业推出了非常多的行业垂直大模型，不过这些模型基本上还是基于云端去实现。在终端，目前AI智能手机和AI PC是最热门的两大应用。

我们简单看一下AI智能手机行业，已经有数家厂商推出了配置在手机端的大模型。以vivo的蓝心大模型为例，可以通过抓取屏幕中的内容，智能且直接地完成日程添加的操作，使用户体验更为便捷。还有荣耀MagicOS 8，大模型让荣耀手机能够捕获用户的意图。在AI PC方面，道理大抵是相通的。

那么，除了原本就比较智能且出货量较大的智能手机和PC之外，AI大模型还有什么终端方向值得去探索呢？OpenAI 给出的答案是机器人。

把ChatGPT装进机器人的大脑

近日，机器人初创公司Figure发布了自己第一个OpenAI大模型加持的机器人demo。视频内容显示，当一个1.7米左右的机器人被植入GPT大模型之后，智能化水平显著提升，不仅能够和人类无违和对话，而且也具有非常强的动手能力。

根据demo内容，这个搭载GPT的机器人能够非常准确地描述自己所见的内容，比如面前的苹果和杯子，以及演示人员手部的动作。并且，当演示人员让这个机器人递些吃的东西过去时，它能够在几乎不需要反应时间的情况下将苹果递给演示人员。这个demo显示出，搭载GPT的机器人已经具有非常高的“意识自主性”，虽然有些对话需要时间反应，不过他最终都能够做出正确的举措。

据悉，机器人初创公司Figure拥有一个豪华的技术团队，创始人Adcock重金从波士顿动力、特斯拉、谷歌等公司挖了大量的人才。再加上有了GPT的加持，Figure 01机器人可以自主做计划、执行任务、有记忆、听懂人话，离具身智能的程度更近一步。

上一个引起行业广泛关注的机器人是VIMA（Vision-and-Language Navigation with Multi-Modal Transformers）。VIMA由李飞飞教授及来自斯坦福大学、加州理工、清华大学和英伟达的几位学者组成的团队联合打造，是一个使用多模态提示执行各类任务的机械体操作系统。根据介绍，VIMA是一个带有机械臂的LLM，可以接受多模态提示词，单个的文本、图像、视频或这些信息的结合。

太平洋证券曾在研报中指出，虽然当前人形机器人的智能AI系统还不够成熟，但当前ChatGPT的出现已展现了生成式AI具备较强理解和生成对话能力，结合OpenAI投资人形机器人赛道，以及特斯拉等巨头的入局，看好未来人形机器人更快商业化落地。

无疑，Figure 01机器人展示出当下具身智能机器人的最新进展。具身智能机器人要求机器人能够像人类一样与环境交互、感知、规划、决策、行动、执行任务。英伟达创始人黄仁勋在 ITF World 2023 半导体大会上就大谈特谈具身智能。他认为，具身智能是能理解、推理、并与物理世界互动的智能系统，是人工智能的下一个浪潮。

相信随着AI大模型技术越来越成熟，这种大模型和机器人的融合会更加成熟，到时候机器人可能会无缝融入人类社会。

大模型融入机器人的挑战

不过，憧憬是美好的，过程总是很艰辛。针对AI大模型和机器人的融合，当前还有很多困难需要克服，就像Figure 01机器人一样，它还有很多细节问题无法很平滑地处理。

在2023年底举办的中国信通院人工智能论坛上，很多专家就谈到了AI大模型的终端落地难题，其中一些问题实际上也是适用于机器人行业的。

比如，第一个是算力和存储问题，当AI大模型在云端训练时，相对算力还是比较充沛的，不过当部署到终端的时候，模型受限于算力和存储能力的显著下降就需要做瘦身。这就牵连出第二个问题，由于实际应用经验严重匮乏，目前大部分AI大模型的瘦身都是“拍脑袋式”的，这也是为什么Figure 01机器人在一些问题上应对非常好，在一些问题上却需要很久的推理思考。因此，在硬件问题上，成本就会是个大麻烦，成本太低的话，AI大模型受影响就会非常严重，成本太高的话就无法广泛普及。

第二个是数据的问题，以机器人来说，最终落地到终端会有比较明确的场景。然而，就需要利用这类场景数据对AI大模型进行二次训练，如何对这些数据进行高质量清洗，另外如何微调数据以达到更好的部署效果，这些都是巨大的挑战，因为有太多经验空白区。有人会问，竟然要求具身智能，要像人类一样，那么不是应该具有广泛的知识吗？理想形态当然是这样，甚至是机器人在一些能力上超过人类，但是受限于硬件，短期看这是不现实的。

第三个是仿真和部署的问题。我们都知道，具身智能的机器人需要和物理世界接触并融入物理世界。这就遇到了一个问题，智能体是基于虚拟仿真环境进行设计的，不过智能体部署之后，现实世界要复杂很多，如何将虚拟世界和物理世界耦合是一个更大的挑战。这不仅要求智能体模型具有非常好的可扩展性和成长性，还需要一个强大的通用智能本体平台。可能有人已经想到了硬件性能冗余，不过考虑到可靠性和成本问题，单纯性能冗余明显是不够的，特定场景通用走向社会性通用的过程中，硬件平台架构创新是非常关键的。

目前，头部企业实现AI大模型和机器人融合的方式有一些差异性。微软公司使用ChatGPT大型语言模型 (LLM) 将人的语言快速转换为机器人的高层控制代码，然后转化为机器人的控制；谷歌PaLM-E模型则是一种视觉路线，能够观察物理实体世界的信息，由大模型进行分析理解，再将决策结果反馈至物理世界；特斯拉则是打通FSD和机器人的底层模块，实现一定的算法复用，特斯拉利用大规模的数据集训练模型，可以提高算法在复杂环境下的性能，并认为自动驾驶的本质就是机器人。

从结果来看，目前AI大模型+机器人已经实现了一些功能，但是离通用智能和规模部署还有一段路要走。

结语

AI大模型如何在终端落地？这是一个困扰行业的问题，将本身就智能的智能手机和PC升级，这当然是一个路径。不过，具身智能的机器人会有更大的想象空间，当然这条路道阻且长。

打开APP阅读更多精彩内容