Waymo利用谷歌Gemini大模型,研发端到端自动驾驶系统

描述

  10月31日讯,自动驾驶领域的先锋Waymo,作为Alphabet旗下的一员,长久以来将其与谷歌DeepMind的紧密合作及深厚的AI研究底蕴视为其在自动驾驶竞赛中脱颖而出的关键。如今,Waymo再迈新步,为其机器人出租车业务引入了一种基于谷歌多模态大语言模型(MLLM)“Gemini”的全新训练模型——“端到端多模态自动驾驶模型”(EMMA)。

  Waymo最新发布的研究论文揭示了EMMA模型的面纱。这一创新的端到端训练模型能够解析传感器数据,预测“自动驾驶车辆的未来行驶轨迹”,从而辅助Waymo的无人驾驶车辆做出精准决策,无论是选择行进路线还是规避障碍物。

  尤为引人注目的是,这是自动驾驶领军企业首次公开表示计划将MLLM技术融入其核心业务,预示着MLLM的应用范围或将超越聊天机器人、邮件整理及图像生成等传统领域,向自动驾驶这一前沿阵地拓展。

  传统自动驾驶系统往往采用模块化设计,针对感知、地图构建、预测及规划等特定功能分别开发。尽管这种模式在过去取得了显著成效,但Waymo指出,其存在可扩展性问题,模块间的误差累积和通信限制影响了整体性能,且面对新环境时适应性不强。

  Waymo认为,像Gemini这样的MLLM能够有效解决上述问题。它们作为互联网大数据培育的“通才”,拥有超越常规驾驶经验的广泛“世界知识”,并通过“链式推理”等先进技术展现出强大的逻辑推理能力,能够模仿人类思维,将复杂任务分解为逻辑步骤。

  据Waymo介绍,EMMA模型在应对复杂交通环境时表现出色,如动物穿越道路或道路施工等情况,都能为无人驾驶汽车规划出合理的行驶路径。

  值得注意的是,特斯拉等竞争对手也在积极开发自动驾驶汽车的端到端模型。特斯拉CEO埃隆·马斯克曾宣称,其最新版本的FSD 12.5.5采用了“端到端神经网络”AI系统,直接将摄像头图像转化为驾驶决策。

  尽管Waymo在部署无人驾驶车辆方面领先于特斯拉,但它同样对端到端系统抱有浓厚兴趣。Waymo表示,其EMMA模型在轨迹预测、物体识别和道路理解方面取得了优异成绩。

  然而,EMMA也面临挑战。Waymo承认,在将模型投入实际应用前,还需克服一些障碍,如EMMA目前无法整合来自激光雷达或雷达的3D传感器输入,原因是“计算成本过高”,且仅能处理有限数量的图像帧。

  此外,研究论文中未提及的一个潜在风险是,像Gemini这样的MLLM可能会产生“幻觉”,这对于容错率极低的无人驾驶汽车而言是极大的挑战。因此,在MLLM能够大规模应用于自动驾驶之前,仍需开展更多深入研究。

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分