传统导航 VS 多模态AI+SLAM，JetAuto这波纯属降维打击

幻尔科技 2026-05-28 837

描述

幻尔科技JetAuto轮式机器人不仅仅是一台执行命令的设备，更是一个具备感知、理解与决策能力的智能体，通过融合AI大模型与SLAM导航技术，真正实现了“思考”与“认路”的合一。

过去，如果我们想让机器人“去足球场踢球”，可能需要手动设定坐标、规划路径、调整姿态。如今，JetAuto通过集成多模态AI大模型，能够直接理解用户的语音指令，并在语义层面进行任务拆解与意图揣测。无论是“前往动物园看看有哪些动物”，还是“到航天基地找找有什么物品”，它都能将这些口语化、场景化的指令，转化为具体的导航目标与行为序列，仿佛一位听得懂人话、看得懂环境的机器人伙伴。

一、部署多模态AI大模型

JetAuto支持部署包括DeepSeek、通义千问、零一万物等在内的多种主流AI大模型，并可通过阿里云API灵活调用。无论是文本生成、语言翻译，还是场景理解、目标识别，它都能依托这些“大脑”实现高层次的人机交互与任务执行。结合一体式6路麦克风阵列带来的清晰语音采集与声源定位能力，JetAuto能够实现流畅自然的语音对话，在执行任务的同时与你互动交流，让人机协作更具温度与智能。

二、JetAuto带你去“动物园”看动物

想象这样一个场景：你对着JetAuto说：“前往动物园，去看看有哪些动物。” 传统机器人可能需要你预先设定“动物园”的坐标，但JetAuto的不同之处在于，它能真正理解“动物园”是一个地点概念，并自主启动SLAM建图与导航流程。

在行进过程中，它通过激光雷达与3D相机实时感知环境、构建地图，并动态规划路径。

到达“动物园”区域后，JetAuto并未停止工作——它会通过视觉大模型对场景进行深度语义分析，识别并理解眼前的“动物”是什么，也许还会通过语音交互告诉你：“我看到了长颈鹿和斑马。” 这种从语音指令到场景理解、再到交互反馈的完整闭环，正是AI大模型与SLAM融合带来的“具身智能”体验。

三、当SLAM建图遇上AI视觉理解

SLAM技术让机器人能够在未知环境中实时构建地图并确定自身位置，这是机器人“认路”的基础。JetAuto在此基础上更进一步，通过3D深度相机与激光雷达获取环境数据，并实时回传至视觉大模型进行深度语义分析。

这意味着它不仅能构建一张几何地图，更能理解地图中每个区域的“含义”——这里是“动物园”，那里是“航天基地”，远处是“足球场”。这种通过语言大模型理解用户语音指令进行多点导航的能力，让导航不再是冷冰冰的坐标点之间的移动，而是真正带有场景理解与目的性的智能巡航。

四、不只是导航，更是具身智能的起点

从三维空间识别与追踪，到基于视觉大模型的物品识别与场景理解；从多模态融合的自主巡线与颜色追踪，到可扩展机械臂实现抓取分拣——JetAuto正在将具身智能从理论推向实践。它不仅在教育场景中为ROS学习者提供从入门到高阶的全套开发体验，更在AI与机器人融合的前沿领域中，搭建起一个可感知、可推理、可行动的实验平台。

打开APP阅读更多精彩内容