AI人形机器人研究：与汽车行业联动，主机厂押注人形机器人赛道

佐思汽车研究 2023-11-20 690

描述

佐思汽研发布《2023年人形机器人产业研究报告》。主要从以下几方面进行研究：

AI人形机器人主要构成及应用场景；

AI大模型赋能人形机器人技术路径；

主机厂和其他厂商AI人形机器人产品布局对比；

产品硬件拆解及软件分析；

AI人形机器人的发展趋势等。

与机械臂、AGV相比，AI人形机器人应用场景更具通用性

AI人形机器人是指由AI大模型赋能，具有与人类似外观和运动方式的机器人。AI大模型从语音、视觉、决策、控制等多方面与人形机器人结合，使机器人具备理解指令并执行指令的功能。借助AI大模型赋能，AI人形机器人应用场景更具通用性。例如，2023年8月，智元机器人推出的远征A1，由百亿级参数的WorkGPT大模型赋能，拥有理解指令，并对指令进行任务编排和执行闭环能力。预计2024年商用，并率先用于工业制造领域如3C 制造、汽车制造，随后逐步走向to C应用如家庭场景。 2022年8月，小米推出的Cyberone。其搭载自研Mi-Sense 深度视觉模组+ AI 交互算法，拥有三维空间感知能力，实现身份、手势和表情识别。此外，在情绪感知上，其能识别85 种环境语义和 6 大类 45 种人类情绪。未来将率先用于小米智能制造工厂、同时还支持多种应用场景，如家庭助理、陪伴机器人、教育辅助等。

智元机器人元征A1应用场景示例

AI人形机器人大模型从VLM向VLA进化

2023年7月，谷歌DeepMind推出了机器人模型Robotics Transformer 2 (RT-2)，这是一个视觉-语言-动作（VLA）模型，实现了视觉语言模型与机器人动作的结合。它能够指导机器人识别视觉和语言，让其理解指令并做出正确的操作。

与视觉语言模型（VLM）相比，VLA的主要进化之处在于将机器人动作直接作为模型token输出，省去了VLM模型将输出的指令翻译成动作控制信号的步骤。

RT-2的架构和训练

大模型

来源：DeepMind

RT-2一方面吸收了VLM语义推理、问题解决、视觉解释能力，另一方面能从真实的机器人动作中实现具身任务推理，且两方面能够相互促进。

训练方式上，RT-2通过将机器人动作拆解为文本token的形式，实现了直接与视觉语言数据混合后输入VLM进行联合微调。

RT-2不仅是对现有VLM模型的简单而有效的修改，还展示了构建通用物理机器人的前景，让机器人可以推理、解决问题和解释信息，以在现实中执行各种任务。

谷歌DeepMind RT-2大模型

大模型

来源：DeepMind

与汽车行业联动，主机厂押注人形机器人赛道

AI人形机器人可与汽车行业联动。如在汽车生产上，用于新能源汽车工厂装配底盘、打螺丝，提升工厂智能化水平，降低人力成本；在汽车销售环节上，用于门店为顾客介绍产品，提升品牌形象。

目前，已有包括特斯拉、小鹏和小米在内的厂商推出了AI人形机器人。此外，比亚迪也于2023年9月入股人形机器人公司上海智元新创技术有限公司，未来智元科技的机器人远征A1可在比亚迪工厂参与外观检测流程、进行装配底盘等汽车装配线上作业。

部分主机厂及其他厂商AI人形机器人产品布局

大模型

来源：佐思汽研《2023年人形机器人产业研究报告》

由于人形机器人与汽车之间存在技术同源，主机厂在汽车行业积累的技术经验可直接复用到这一赛道上。首先在软件方面，主机厂可将车端算法复用至人形机器人上。例如，特斯拉人形机器人Optimus采用与FSD同样的神经网络“占用网络”来对三维环境进行建模。FSD算法在处理传感器数据时，具备对道路、车辆和行人等物体进行识别的能力，可帮助机器人在执行任务时识别和定位物体。此外，Optimus的神经网络训练是完全端到端的，可直接从视频输入中获取信息，并输出控制指令。根据2023年9月特斯拉公布的视频，Optimus已可仅依赖视觉对物体进行分类，并完成简单的瑜伽动作。小鹏汽车在车端感知上采用激光雷达、毫米波雷达、摄像头、超声波等多种传感器，及自研的深度学习算法，实现对周围环境的高精度地图构建和实时动态追踪。该技术可使人形机器人具备在复杂道路稳定行走的能力，及对障碍物和危险物的规避和应对能力。此外，小鹏采用多种模块，如规划、决策、控制、校准等，及自研的强化学习和多智能体协同算法，实现了对车辆运行的安全和保障。该技术可使人形机器人具备在不同场景下自主完成任务的能力，以及与其他机器人或设备协同工作的能力。

小鹏AI人形机器人

大模型

来源：小鹏

其次在硬件方面，主机厂可将电动汽车供应链复用到人形机器人上。如共用汽车芯片、电池、摄像头等，并对汽车电机电器、热管理等做适应性更改，以降低机器人制造成本。

例如特斯拉人形机器人的“大脑”搭载D1芯片（同为特斯拉车机的芯片），单芯片算力可达362TFLOPs，为机器人提供算力保障；头部拥有3颗Autopilot摄像头（鱼眼摄像头+左右摄像头），分别控制左中右三个方向的画面；电池组借鉴了电子产品与汽车产品的设计，将所有电池的电子设备集中到电池组的单个PCB中，从传感、融合、充电管理汇集到一个系统中。

Optimus人形机器人大脑芯片D1架构

大模型

来源：特斯拉

打开APP阅读更多精彩内容