上海车展期间,理想汽车发布了最新的战略计划「双能战略」,而双能战略的核心有两个方面:一,智能战略;二,电能战略。
这两个战略也很好理解,智能战略包含智能驾驶和智能座舱,电能战略则是围绕增程电动和纯电展开。
01
理想智能驾驶迈入 3.0 时代
在智能驾驶方面,理想汽车始终坚持全栈自研,今天,理想智能驾驶迈入3.0时代,从高速场景进入到城市场景。
在预测及规划中,通过实时输出交通参与者未来的行动轨迹,为决策规划提供准确信息。
理想在即将量产的城市 NOA 导航辅助驾驶算法中,使用了三种神经网络大模型算法:
静态 BEV 网络算法
动态 BEV 网络算法
Occupancy 网络算法
对物理世界进行还原,并使用 NeRF 技术增强 Occupancy 网络算法使之实现更高的精度和细节。
静态 BEV 可以在部分摄像头被遮挡,车道线模糊的时候依旧可以补充出道路结构,解决了高精地图数据实时性的问题;动态 BEV 神经网络具备了一定的「脑补」能力,已经与人类的思维方式高度接近。
比如当车辆同时出现在多颗摄像头视野内时,动态 BEV 可以稳定地追踪并感知出物体的距离与速度。
Occupancy 网络算法,则可以对物理世界进行数据化建模,通过纯视觉可以还原物理世界的真实场景,例如路上的垃圾桶、临时的施工牌等「通用障碍物」。
在这个基础上,理想汽车使用 NeRF 技术,进一步提升了 Occupancy 在远距离的分辨率,让系统的感知能力更加强大。
简单说就是,基于以上三种神经网络大模型算法的感知结果,系统会实时输出周围所有交通参与者的轨迹预测结果,这样的预测结果可以为理想汽车的智能驾驶系统在城市复杂场景的决策规划提供准确信息。
理想AD Max 3.0的城市NOA导航辅助驾驶系统二季度开始推送内测用户。到 2023 年年底,推送的国内城市将超过 100 座,用一套技术,完全打通城市与高速。
车展期间我们专访了郎咸朋博士和赵哲伦,看看他们对理想自动驾驶的一些介绍。
专访:
理想汽车智能驾驶副总裁 郎咸朋
理想汽车智能驾驶产品负责人 赵哲伦
记者:您公布的关于自动辅助驾驶最新技术大家都很震撼。我注意到您分享的 PPT 中有个数字:训练里程达 4 亿公里以上,关于这部分是否可以分享一下理想汽车目前用于训练的超算中心的具体情况?
郎咸朋:我们的超算中心在默默的建立,我们之所以不对外讲,是因为我们希望有些东西可以保密,但是我们的算力储备,可以说是国内第一的。
我们对超算中心的建设是坚定的,大模型网络必须要有算力储备,我们会在合适的时间专门来说这件事。
记者:是理想汽车自己搭建的还是跟合作伙伴一起做的?
郎咸朋:这个我们都在考虑,我们之前用的是百度云和阿里云搭建的训练集群。
记者:我们现在整个网络的进度跟这些训练相关性是怎样的?
郎咸朋:他们现在已经完全满足我们现在的训练要求,我们已经有国内第一能力的训练集群了。
记者:我听说现在即使是 AD Pro 的方案,它回传的图像包括毫米波数据也可以加入到整个大模型的训练当中,AD Max 车型也可以用是吗?
郎咸朋:这是可以的。
如果再说的细节一点,因为现在用大模型,它对数据样本的精准标注这部分可以减少一定的要求。
像原来一般情况下做的数据训练,因为数据量少所以需要对每张图的标注都精雕细琢。所以基于大量的数据样本速度就会提升的非常快。
基于一个大模型做主干,加上几个小的模型做微调,会对整体能力起到非常好的效果,这其中一个大模型是关键。
举个例子,这就像是我们考数学,是需要多积累数学知识提升能力的,到了临考试时再刷两套真题,这样的话我的考试成绩就会非常好,但是你永远刷题,能力无法提升也不行。
记者:北京马上要开始进行「早鸟测试」,那针对普通用户参与「早鸟测试」的规则已经定好了么?
赵哲伦:这部分目前已经有一些初步的计划,基本上在前期我们还是会筛选之前在高速 NOA 场景下使用频率相对高的,我们需要的客户最核心的要素是确实喜欢使用智能驾驶功能,并且使用的频率会比较高。
在前期对这套系统要有比较高的包容性和理解能力。
我们现在在云端做自动化标注,标注效率很高,实际上静态 BEV 和动态 BEV 的结果超出我们的预期,对于下游规划算法做的非常友好,这也是我们能把一切提前的核心原因,确实是效率会提高。
记者:您刚刚说的时候提到了基于视觉进行智能驾驶辅助功能相关的部署研发,昨天华为说的是基于感知,激光雷达长期来看是什么样的地位?会是保底选择还是参与很多核心的感知?
郎咸朋:我觉得分两个问题回答:一个是对激光雷达的看法;一个 Occupancy 占用网络的问题。
先说一下 Occupancy 占用网络,现在做 Occupancy 样本时,我们会用到激光雷达,它来给我们提供 4D 的样本,这是 Occupancy 的输入,也用了激光雷达。
在使用 Occupancy 占用网络时,我们希望它能做到纯识别感知的能力,这是我们正在探索或正在做的。
对于激光雷达来说,一是激光雷达对夜间安全性是一个很好的补充,另外是对我们积累的样本和数据是很好的传感器。
赵哲伦:我补充一点,当车子开过去之后的后像场景,门关起来之后依然在变化,如果是前像的话,过去就没了。
记者:我想问一下,未来几年之内,有去掉激光雷达的计划吗?
郎咸朋:我们现在还在做测试,但现在不敢说去掉,还是要看研发的进展和进度。
记者:目前理想的车型上是否有搭载 4D 毫米波雷达?
郎咸朋:已经搭载了,没有对外因为我们在做 4D 毫米波雷达的验证,现在虽然是 4D 毫米波雷达,但更多还是应用于普通雷达的能力。
因为 4D 毫米波雷达比较新,我们需要更完整的验证之后,才能确定它的特点和特性是不是可以发挥出来像它说的那么好。
记者:目前 4D 毫米波雷达是搭载在哪些车型上?
郎咸朋:在理想 L7 Pro 车型上。
记者:我想问一下,咱们年底要开放 100 个城市的 NOA,在城市方面怎么做配合?还是说尝试有些城市不做当地的测试直接开放?怎么判断普及策略?
郎咸朋:这是一个很好的问题,我们认为要做就做第一。
第一,因为理想汽车的城市 NOA 不依赖于高精地图,从理论上来讲只要有导航的地方,我们其实就可以覆盖。所以哪怕 200 城、300 城也有可能。
第二,关于测试的部分,我们现在测试的手段还是拿自己的测试车去实验,我们现在搭建的「波塞冬」训练平台,做影子测试验证的一些手段,可以帮我们进行验证,而不是用自己的测试车去做验证,这个速度会非常快。
记者:现在的测试方式是不是一个城市当中有足够的车主数量并且有足够高的 NOA 层级,我们从理论上就可以认为这个城市具备开放的条件?
郎咸朋:大的逻辑是这样的,但是可能不用非开着辅助驾驶,人开着也是可以的。
因为背后有影子模式这种机制。
赵哲伦:这将会非常高效的辅助我们去开放城市 NOA,但实际上我们在当地还会做一些范化性的验证。
记者:因为城市 NOA 的技术难度要比高速 NOA 会更大一点,我个人感受理想在辅助驾驶方面相对比较保守。
理想的城市 NOA 还会和之前一样保守吗?
郎咸朋:我认为保守和激进应该是在产品的表现和产品体验上的一些感受。
首先是要符合我们产品定义。
其次从技术上来说,我们在技术领域并不是保守派,大家也能看到我们在过去五年默默积累的这些技术。
比如,从 BEV 网络技术点上我们是领先的,至于产品策略表现什么形式,这和我们产品的功能设计相关。
赵哲伦:这确实是很难被理解的问题,因为从我们的保有量级别来说,AI 大部分就是招回率和准确率的取舍。
如果我们变道策略做的非常激进,但因为我们用户量级每天可以到几十万公里,在这样的大用户量级里,这个变道的风险率,不是说它会出事,但它的风险率一定会提升。
所以我们把变道整体的策略变得相对更保守,对整体安全性和稳定性会更有帮助。
我们基于大用户量级去考虑问题的时候,会考虑最极端的情况,但回到媒体端的测试,大家会觉得为什么你很保守?
因为大家大部分日常使用是没有问题的,但在很极端的情况下,我们的策略会对整体系统的安全性有很大的帮助。
因为我们整体还是希望能把这个东西做到标配,做到更多用户能使用,跟极客的策略还是不一样的,所以我们整体上还会把它做到普通用户也能使用和适应,能应对更多的极端场景。
记者:那之后会不会有本地部署,学习性的?
赵哲伦:目前倒还没有讨论,目前还是做通用的「司机」。
记者:对于国外的道路功能会如何?比如说我买个车在国外开?
赵哲伦:目前从算法上完全没有问题。但什么时候出海还是跟随整体车型出海的计划去定,算法上是没有问题的。
记者:我觉得现在不够熟悉智能驾驶的用户,并不知道边界和极限在哪里,特别是用户量增大以后。我现在是根据经验来去判断该不该接管他,什么时候能够放心?
赵哲伦:如果是可预期的风险,内部在做策略的话,规划算法承接最后的整体控制。
在识别到横向或纵向控制已经难以确保安全性,比如意识到需要很大的力把方向拽回来,我们会提前向驾驶员预警,这种情况是有的。
包括有时他发现需要很强的急刹,但系统制动力没法达到及时性那么高的情况下,车辆就会提前预警。
总体来说,任何系统失常的情况,无论是纵向还是横向,都会提前发出报警,因为你已经是老用户了,其实你的预判比它会更早一些。
比方说你的预判是提前 3-4 秒会接管,但系统预判会是 1-2 秒时间,所以往往你会觉得车辆没有提前告知。
记者:我每次看到弯道会提前把好,害怕车辆突然放开?
赵哲伦:你会发现到弯道,如果放开,一定会有很强的告警,这个我们是做了很强的逻辑。
记者:会不会考虑去放开一个层级?比如说对于熟悉用户或者小白用户自由选择强度的问题?
赵哲伦:目前已经在做策略了,最新的 OTA 4.4 会做一个逻辑,在设置上会找到提醒的简洁模式和详细模式,熟手用简洁模式就可以了,出厂默认会到详细模式。
记者:硬件淘汰周期大概会有多久?2021 年的理想 ONE 我到现在都在开,智能辅助驾驶当时用的时候还行,也在没当时体验好了,Max 硬件配置至少在多长区间能跟上你们的开发节奏?
郎咸朋:我们的开发节奏跟基础演进相关联。
去年底出了 GPT,大模型就出来了,出来之后就要用这个技术,匹配一定的算力,这就很难去评定我们是主动还是被动。
硬件研发和生产也是有周期的,我个人认为这个周期三五年是要有的,最近这几年发展比较快,我觉得硬件算力提升主要还是看软件算法发展的快不快,如果发展的快,硬件肯定要跟着提升。
记者:我们在做线下调研的时候发现,媒体、厂商和用户,对安全的定义不太一样,我们会感觉只要刹住了,能够避免危险的情况出现就是安全了。但对于用户来说可能觉得一脚急刹,就是不安全的。如果消除这点分歧的话,这个模块,可能会更提前的去预知危险的情况出现,包括提前做出预警,这个大概有没有一个周期说在哪个节点之前?
赵哲伦:这个其实就是郎博今天分享中的预测能力,预测也是非常难的,今天郎博分享的这些东西全部都是检测到的物理世界,这些东西全部进入到我们的大模型中会出一个预测结果,但这些预测结果到底准确不准确依赖于感知准不准,感知不准确预测结果就不准,感知准确预测结果就会更准。
这本身是个持续提升的过程。
郎咸朋:刚才提的我们要做到刚才的能力,除了检测识别准确之外,还有一个能力就是预判准确,人其实是有预判,我这个系统会算算命,大概 4 秒钟、5 秒钟之后大家会是什么样的状态而且比较准一点。
我要知道每一个动态物体它过去、现在和未来的位置、速度,过去就是历史的轨迹可以记录,现在就靠当前这一针的识别检测,那么未来这几秒钟就是我刚才说的预测能力。
刚才说人的安全性、安全感,它就来自于一个预测能力,这样预测的能力,刚才哲伦提到来自于感知能力的强依赖,今天主要分享的感知能力,动态的,静态的以及你不认识的一些东西也做出来了,相当于那地方有个黑乎乎的东西,虽然我不知道是什么,但我知道我不能压上去或者直接开过去。
像这样的一些东西,我都要把它全部实时的感知出来,并且有准确的预测,这个预测你们也可以看,别的家都没有放过预测的东西,很少或者没有,我们把预测线都显示出来了,这个视频有机会可以发给大家。
其实每个物体包括行人、车辆、三轮车,它在未来几秒钟要去哪,轨迹怎么走,速度是什么样的,在我们的大模型里都可以输出出来,而这再进一步就是,我能不能更好、更安全的做一些安全的东西,这就是我们产品力会慢慢的提升。但是,在时间点上,我们只能说尽快。
记者:昨天这个问题我也问过华为,他们说激光雷达是差不多,大家认为是 2025 年就可以,但我感觉这个难度还是远超预期?
赵哲伦:这主要取决于一些场景,比如路口的掉头特别是窄路,左边车道的车会先向右边打一把再转向左边,去进行一个大掉头,针对类似行为的预测就会比较困难,预测也分难易等级,通常道路上大部分情况我们认为比较快的都能达到。
但再往后可能用户的行为或者他的行动跟大量的数据是非预期的,这到后面比较长尾的问题就需要解决。
郎咸朋:预测还是非常难的,特别是一个人他向前加速突然又急刹车向后转,你完全无法预测 3 秒钟或者 5 秒钟之后是什么样的,但我们只能说尽量的准确预测。
同时,我们尽量预测的快一点,即使调整我们也可以实时跟着变,这两个要素,一个要准一个要快,都是我们要完成的。
记者:我们每进入一个城市,有没有它的硬性指标,比如说需要有多少辆高配车型,在一个城市内跑多少公里,然后这个城市已经决定开放了,目前这个可以公布吗?
赵哲伦:开放的基本逻辑和顺序和当地的保有量相关,100 多座城市覆盖保有量已经 90% 以上了。
郎咸朋:我们跟别人不一样,别人是按照城市来开放,按照行政区划分来开放,因为要依赖于地图的开放。我们开放的逻辑是数据驱动的逻辑,这个城市的车多、里程多,在里面测试的相对多一些,这个城市的数据量大、需求量大,那这个城市就更早的容易被开放出来,是这样的逻辑。
记者:所以就核心标准是数据,比如说一个城市大概积累多少数据?
赵哲伦:我们会评估当地用户在复杂路口的覆盖率,因为复杂路口的训练量级是比较重要的,数据的体量我们还是要稍微保密一下,后面有机会会同步给大家。
记者:现在对于变道超车逻辑看起来相对保守,这是因为家庭用户的车型定位还是大车应该减少频繁的操作?从尺寸角度来说,我们要跟其他车企做智能辅助驾驶区别开,另外还有分层的问题,我们以后会跟交付一样单独开通一个机器模式和标准模式吗?到底是因为定位问题还是尺寸问题?
赵哲伦:首先是变道策略比较保守,在比较狭小的空间里或者说后车有比较高速的侵入趋势时,是不是能进行变道?
这部分跟定位是有关系的,我们面对的用户跟其他品牌有些不同,有大量的是比较普通的,甚至是从原来豪华车置换的用户,本身甚至连 LCC 这样的功能都没使用过,所以用到 NOA 这样的功能,我们希望整体上相对来说更偏向于安全,或者是保守一些,是这样的策略。
另外,从车身尺寸的角度来说,我们在做任何辅助驾驶功能时都比其他车型困难一些。
举个例子,比如特斯拉 Model3 感觉并不会很明显,因为本身车宽比较窄,但因为我们车宽都超过两米,车道中稍微有些靠左或右,用户会非常敏感,这对整体算法的控制精准度要求非常高。
目前可以看到对我们 L7、L8 和 L9 基本上具备这样范化能力,包括后面会出相对更小的车型,我们都可以完全覆盖,做完大的再做小的相对容易一些。
第三个是分层,目前其实前面说的我们在交付逻辑上已经在做这部分的考虑了,目前还没做非常严格的,比如说你是新手就一定不能怎么用,这个目前还没有做。
记者:比如说是否有激进模式跟标准模式?
赵哲伦:这个会放在后面阶段做个性化,我们认为第一阶段先用一个通用的,把用户大部分的 80% 的需求满足好,下阶段才需要 20% 比方说有人有激进有人有保守的需求。
审核编辑 :李倩
全部0条评论
快来发表一下你的评论吧 !