人工智能的质变

焉知新能源汽车 2023-11-25 1211

描述

2023 年广州车展，又是烟花缭乱的新车上市，想到半年前的上海车展，一样的百花齐放，所有车企用尽办法留住客户的目光。

但是似乎这半年，似乎什么都没有发生，层出不穷的产品，不断新品被转移的注意力和被迫加入价格战的各大车企。

半年前的话题是什么？

新势力会的我们三年就学会了，我们会的新势力永远学不会。

德国大众看完国内车企功能之后，火速解雇自家软件公司 CEO。

年底百城，全国都能开城市 NOA。

可见即可说。

半年过去了，智能电动汽车的智能真的到来了吗？多一个功能，多一种控制车的方式，就可以称之为智能电动汽车变革了吗？

很显然不是，这些都只是智能汽车的表象变化。

所以广州车展，车企宣传的方式与上海车展几乎没有区别。

真正的智能，一定是从 AI 底层去思考。多一种交互方式不是真正的智能，就像人类，智慧是靠大脑决定的，而不是靠四肢。

很遗憾的是，很多车企强的是四肢的执行，而不是大脑的智慧的演进。

但是最近发布的极越 01 喊出的口号是「未来十年的车，都会有极越 01 的影子」。

那差异在什么地方，百度这么多年的 ALLIN AI，又能给智能汽车提供什么能力？

如果我们希望真正的智能出现在汽车内，车企们需要做什么？

在回答这个问题前，我想先探讨下智能的定义，为什么人工智能发展了这么多年，直到 ChatGPT-3.5 横空出世，学术界才认为 AI 步入爆发期。

人工智能的质变

很多人会给出一个答案：大模型。

可惜的是，这个答案的定义本身就不够清晰。什么是「大模型」，没有一个准确的定义。

我们可以给出一个模糊的定义：

我们通常所讲的大模型，比如 ChatGPT，文心一言，所指的是大型语言模型（LLM，Large Language Model），也就是比较「大」的神经网络语言模型。

这个「大」主要指模型结构容量大，结构中的参数多，用于预训练大模型的数据量大。

一个大模型可以分三个层次：算法（模型结构）、模型参数（数量和数值）、训练数据。

但是大是一个相对概念，并没有一个标准的定义，而我们常说的以 ChatGPT 为代表的 LLM，也只是一个 Large Language Model 的模糊定义。

例如下图中的模型参数，我们可以看到 GPT-3 的模型参数量已经高达千亿，但是 GPT-3 出现时，并没有引发大量的关注，人们认为这不过是一个巨量参数的模型罢了。

模型参数没有策略地变大，其实没有带来真正的变化。

人工智能

直到 GPT-3.5，在模型参数没有显著变化基础上。

OpenAI 首次在 GPT-3 之上用人类反馈去微调模型，使得模型与人类期望相符。

团队寻找了许多具有较高认知水平的标注员，来保证人类反馈的合理性；并且根据人类标注员的反馈训练了一个奖励模型，基于这个反馈模型来让数据的标注更加趋近人类的感受。

这里的核心是：

从训练的过程中，就保证模型正在往满足人类偏好的方向进行演进。

这是从构建过程中就产生的本质变革，不仅是大量书籍，也包括大量人类的反馈。

就像一个学生，学习了大量书本知识之后，还需要在社会中进行历练，才能真正成长为一个有价值的角色。

这是催生 ChatGPT 产生人工智能质变的关键钥匙。

巨量数据训练的模型让 ChatGPT-3.5 产生了足够的归因和推理能力，甚至拥有自我决策的能力。

早期参加一个 AI 论坛时，一位业界大牛举了很好的例子：

如果你问 ChatGPT，找出下面的不同的一项：狗，卷心菜，恐龙。

它可以给出自己答案。

卷心菜：蔬菜和动物的区别；

恐龙：已灭绝生物的区别。

这是 AI 的质变时刻，拥有了自己的决策和归因能力。

探讨完 AI 的变革，我们将目光回到汽车上，什么代表着汽车智能的质变？

汽车智能的模样

传统的汽车是基于按键进行操作的，以人类的思考为核心，拥有外化的执行能力，例如按下一个键空调会打开，可以打开车窗。

这是以服从和执行为基础的人机交互方式，并不具备任何的决策和理解能力。

现在大部分智能汽车，依然遵循着这种逻辑，无非是将实体按键整合到屏幕上，并没有产生实质的变化，因为并不具备决策和理解能力。

那汽车智能的质变时刻是什么？

这个问题依然不好回答，我想起 OpenAI 最近刚刚推出的一款智能硬件 AI PIN。

这是由 OpenAI 提供技术支持的可穿戴设备，专为与大型语言模型交互而设计。

这款设备允许用户通过说话，来拨打电话、发送短信和搜索信息，还拥有激光显示屏，直接将手掌变成一个迷你屏幕。

「AI Pin 为人们提供了一个机会，可以随身携带人工智能」

AI PIN 内置的模型来自于 OpenAI，拥有与 ChatGPT 一样的上下文理解能力，归因能力。

为了让人类与科技的关系真正超越屏幕，我们需要一些完全不同的东西。」Humane 联合创始人 Chaudhri 说道。

这款新硬件的未来似乎并不明朗，有质疑也有支持，支持者认为这就像第一代 Ipod，为智能手机变革奠定了基础。

但是由此可见，以 AI 为核心的交互模式，不再局限在某个屏幕上的下一代智能硬件范式，几乎成为共识。

硅谷的科技精英们，正在以此为信条，构建以 AI 为核心的智能硬件。

如果我们现在将汽车作为一种硬件来看待，那么实际上，真正的智能汽车，也应该遵循下一代智能硬件范式，以 AI 为核心。

真正理解用户的意图，并且通过用户的行为推理出合适的操作，满足用户的需求。

AI 不是一种达成某个功能的手段，而是所有功能的底座。

那么如果以此为界，极越是否真的做了一些思考和变革？

极越的智能座舱变革

百度在智能化的长期投入几乎都在极越上得到了体现，不论是 10 年之前，百度大范围的科研投入放到自动驾驶；9 年前推出的小度；还是 6 年前，百度彻底转型 AI 和人工智能；亦或是 4 年前，他们与国外同期搭建了学习型的文心大模型，以及两年前文心一格等 AIGC 内容生成应用的出现，直到今年三月「文心一言」的横空出世。

极越获得了这些内容的深度加持，极越承载的使命是将百度这些能力具象到真实世界，与用户进行真实的交互。

所以在车型设计之初，极越就确立了以 AI 为核心的理念，也喊出了汽车机器人的口号。

不只是屏幕

极越是第一批搭载最新高通 8295 芯片的车型，这是为了保证整个智能座舱大脑能在足够的算力上运行，也为了保证百度的智能生态应用都能有机会在车上运行。

这是基础。

保证了算力基础，再加上百度业界领先的智能化水平，那就到了执行层面，如何让智能座舱与用户进行更加顺畅的交流和响应。

极越的逻辑是：既然以 AI 为核心，那么就可以从「自然交流」出发，让汽车从传统的生产生活工具。

这里面有个核心点，如何构建一个「合理」的人机交互系统。

托起这套系统有两个点，一个是外化的硬件；另一个是底层软件。

硬件好理解，而软件就比较有有意思，这里讲的不是应用层，而是算法层，想要人机达到「自然交流」，首先要做到「全场景」。

以语言能力举例，现在座舱语言大部分都是基于在线语言模型，但如果是无网络状态下语音的使用会大打折扣，而极越的本地离线语音模型。

一般来讲，语音识别系统由几个部分组成：将音频片段（通常为 10 毫秒帧）映射到音素的声学模型、将音素连接起来形成单词的发声模型，以及一个表达给定模型的语言模型。

在早期系统，这些组件是相对独立优化的。

2014 年左右，谷歌研究人员开始专注于训练单个神经网络，将输入音频波形直接映射到输出句子。

通过在给定一系列音频特征的情况下生成一系列单词或字形来学习模型，这种 sequence-to-sequence 的方法促使了 attention-based 和 listen-attend-spell（LAS）模型的诞生。

虽然这些模型在准确性方面表现出极大的前景，但它们通常会检查整个输入序列，并且在输入时不允许输出，这是实时语音转录的必要特征。

同时，一种称为 connectionist temporal classification（CTC）的技术有助于减少当时识别系统的延时问题。

这对于后来创建 RNN-T 架构是一次重要的里程碑，也被看作是 CTC 技术的一次泛化。

CTC 其全称为 Connectionist Temporal Classfication，由 Graves 等人于 2006 年提出，用于训练 RNN 以解决时序可变的序列问题，它可用于在线手写识别或识别语音音频中音素等任务。

发展到如今，CTC 早已不是新名词，它在工业界的应用十分成熟，到了 2021 年例如，在百度早在 2019 年公布的在线语音模型在 CTC 的基础上还融合了 Attention。

与谷歌关注移动端推断不同，百度的语音识别更关注在线的实时推断，他们提出了一种名为「流式多级的截断注意力（SMLTA）」模型。

SMLTA 模型最核心的概念是利用 CTC 模型的尖峰对连续音频流做截断，然后在每个截断的小语音片段上进行注意力建模。

这种模型利用了截断多级注意力对长句建模的优势，同时也解决了 CTC 模型的插入或删除错误对注意力模型的影响。

此外，它采用的是一种局部注意力机制，因此能做到实时在线推断。

百度的 SMLTA 主要用于在线语音识别，但通过对 Deep Peak 2 模型的大量工程优化，它也能提供离线语音识别。

而离线语音模型主要解决了两个重要问题：「通信网络的延迟」和「固有的不可靠性」。

因此，为什么极越 01 可以做语音变道？

核心是，8295 + 免唤醒 + 识别速度足够快。

所以极越 01 几乎取消了所有的实体按键，以语音作为交互方式，就像与副驾的自然交流一样。

直接通过语音告诉 Simo 你要做的事情。例如副驾可以说需要开门，此时只有前方右边车门会被打开，这在其他车型上是难以看到的。

实体按键带来的直接反馈，极越的语音助手真的能够完全取代吗？

基于大模型带来的强大的语音理解能力，我认为极越 01 做到了。

不仅如此，极越拓宽了语音伙伴的陪伴范围，不仅仅在座舱内，也在座舱外。

通过声纹识别之后，用户可以在车外要求打开车门，这里面比较有意思的是泊车，极越的能力是：泊车时如果有行人挡住车辆进退路线，视觉感知到后也会车外语音和行人说「正在泊车，请让一让」。

这个功能很容易被理解成「炫技」，但为了炫技在车上增加几个外扩扬声器，以及让工程团队花绝对的时间去开发，这在整个汽车行业成本控制都趋于极限的条件下，显然不合理。

那答案就显而易见了，外部语音提醒在低速泊车场景里有其真实的安全冗余。

低速泊车场景和高速行车不同，除了目前是两套技术栈，还有就是场景不同带来的行车策略区别，低速场景里的参与者和复杂度往往并不低，对于感知识别和车控精度要求甚至更高，特别是盲区范围和数量更多。

而且将语音同智驾做融合要涉及底层开发，我们都是知道极越 01 是浩瀚平台上的产品，夏一平说过，浩瀚为我们提供了一个强有力的四肢，但极越自己定义了大脑，这个大脑具体是指，从底层自研的电子电气架构到域控能力一体化，再到先进算法所组成的智能化能力。‍‍‍‍‍‍‍‍‍‍‍

这套架构还进一步打通了智驾域和座舱域，实现了高速和低速泊车环境下的语音指令功能。‍‍‍‍‍‍‍‍‍‍‍‍‍

比如，PPA 开启时可以通过语音实现变道指令，泊车时可以通过辅助驾驶的感知系统，实现对外部行人的识别。‍‍‍‍‍‍‍

简单说就是，智驾域要给智舱域控制器发一个信号，说有个人在泊车行车路线上，让系统通过语音去跟这个人交互，说让他让一让。

此时，这个人让行之后继续给车辆 AVP 以及环视感知指令去做泊车。

其实就一句话：实现「正在泊车，请让一让」这句话，是需要很多工程能力的，同时它是一套安全策略。

极越后期还会 OTA 更多与车外交流的能力。

当产品的核心不再是简单加上一些屏幕，减少一些按键，而是对整个交互方式进行重新思考时，才会有新的座舱体验。

智能化的想象

极越迈出了以 AI 为核心的第一步，那么未来还会有哪些可能的变革？

目前智能座舱还在一种无序的状态，每个厂商都有自己的理解，每个厂商都有着一个自己的产品形态，实质是没有构建出一种新的产品体系，像是大爆炸前的混沌宇宙。

如果我们希望我们的智能化伙伴能够真正理解我们的需求，那么就需要更多与它们交流的时间和场合；就像我们希望交到一个真实的朋友，那么我们需要更多时间与他相处，更多真实情感的交流。

这种全天候的陪伴，极越开始做了。

通过小度上车，SIMO 可以与小度共享同一个主人，共享主人的偏好，更能理解用户的需求。

打通 SIMO 与智能家居的的互联互通。

例如：停好车之后自动打开家里的空调，上电梯之后，车辆自动开到电梯口来接你，通过小度与家里人直接对话。

这些普通的新势力是无法完成的，整个家居生态它们并不满足，目前看华为、小米、极越更加完整，也拥有更多未来的拓展的可能性。

什么是智能汽车的未来？

最近人工智能圈有一个热词：具身智能。

有别于传统的人工智能概念（如 ChatGPT），强调具有真实世界的物理实体，但也有别于传统机器人行业，强调具有足够的自我决策和归因能力。

当我看到极越 2022 年将汽车机器人作为主要宣传方向时，我知道极越不将自己局限在一个汽车概念上，而是拥有足够的智能化能力，只是汽车作为物理形态的一种产品。

这与 2023 刚流行的具身智能的概念不谋而合，是一种全新的产品定义方式。

我们可以期待一下，跳脱出汽车概念的极越，在人工智能变革的当下，还能带给我们哪些惊喜？

打开APP阅读更多精彩内容