在 2025 中国信通院深度观察报告会上,许志远副总工程师指出,具身智能正经历认知与物理智能的“双螺旋”突破,但模型、数据、形态路线三大争议未决,大规模落地尚处早期。若想突破现存瓶颈,亟需完成技术架构、数据体系、商业化形态的三重跃升。
技术突破与数据革命
破解落地的核心瓶颈
具身智能落地核心,是模型架构的升级迭代。
许志远提出 LLM→VLM→VLA 的三阶段演进路径:LLM 赋予模型“思考能力”,VLM 实现视觉-语言跨模态感知,VLA 完成“感知—思考—动作”闭环。

*图片源于互联网,供参考
在工业领域,ALVA 纯视觉系统基于双大模型架构,通过“指令输入→视觉理解→策略生成→群体共享”流程,支持自然语言或动作示范直接训练机器人,真正做到“具备情境理解与自主规划能力”的、实现“感知-认知-决策-执行”全栈具身智能。
在 VLA 基础上引入“世界模型”,是提升环境适应能力的关键。许志远强调,世界模型可理解、预测物理世界,降低真实数据依赖;且“数据革新需推动产业级协作”。
基于生产数据和实时环境数据,ALVA 纯视觉系统可在虚拟环境中预先进行模拟决策训练,丰富的决策经验和庞大的数据库,支撑其结合现场环境迅速理解语音指令并执行精准作业,还能不断吸收人工发出的决策指令的特征,反向优化自身决策水平。
商业化验证
从“技术秀”到“市场赢”的关键路径抉择
技术落地的核心争议是形态路线选择,当前主要以“人形坚守派”与“折中派”对立。
特斯拉等坚持全人形路线,但受到国情以及经济发展趋势影响,国内企业更加强调工业场景可落地性,多采用“轮—臂式复合机器人”—折中路线凭借部署简单、成本可控的优势,是现阶段平衡技术与商业的最优解,也符合“落地优先于完美”的行业节奏,为技术迭代积累真实数据与反馈。
ALVA 纯视觉系统以开创性技术打响国产化替代的“关键一枪”。系统融合 AI 大模型与高精度动态视觉感知,核心算法 100% 自主研发。
基于空间计算实时反馈,在机械人执行精密作业时,“手-眼-脑”多位协同实现位姿动态补偿优化,可在机械臂高速运动、AMR 自主导航等动态场景中,实现微米级重复定位精度。
ALVA 纯视觉系统凭借其百元级的硬件成本,轻量化外观可灵活适配多种载体,其群体智能进化架构实现经验共享,更为中小企业构建可成长的智能化产业生态,为具身智能大规模市场化推广夯实普惠基座。
据 DIC 报告预测,2025 年,全球具身智能机器人用户支出规模预计超过 14 亿美元,2030 年将飙升至 770亿 美元,年均复合增长率(CAGR)高达 94%。如此可观的增量市场,更为行业划出了未来发展的方向标:全球及中国市场均呈现爆发式增长态势,仍需技术突破、政策支持、产业链完善共同推动行业从“技术展示”向“商业闭环”跨越。
未来展望
人机共生的通用智能时代
据专家预测,具身智能长远发展将呈现三大趋势:一是跨具身能力成核心竞争力;二是端到端泛化升级;三是人机共生落地;未来具身智能将按“工业制造—商业服务—家庭服务”顺序渗透,逐步“飞入寻常百姓家”。
许志远强调,具身智能发展的核心矛盾在于,技术突破与落地挑战的艰难平衡;摩根士丹利的市场预测也印证了行业前景,当技术创新与商业实践达成平衡,机器人融入生活的科幻场景将从实验室大步迈向现实。
当智能机体真正融入产业肌理、走进生活日常,技术的微光终将汇聚成照亮未来的星河,让“机器赋能人类”的初心,在科技与人文的交融中历久弥新。
关于 ALVA Systems
ALVA Systems 专注增强现实/人工智能等空间智能相关技术的自主创新,成立十余年始终深耕底层算法研发与优化,拥有自研算法引擎并拓展丰富创新产品与应用,是全球空间智能领域的核心供应商。
在工业领域,公司重点致力于基于空间智能技术和制造业的深度结合应用,经过充分实践,形成了丰富完善的产品线,让不同行业企业利用既有资源敏捷实现 AI 价值,Anyone can AI ! 开拓了广域的应用空间,是国际工业物联网与“数字孪生”解决方案的领跑者。
全部0条评论
快来发表一下你的评论吧 !