如何通过人工智能拓展智能汽车边界

商汤科技SenseTime 2022-01-12 1645

描述

编者按：智能汽车正在从传统的“制造”到“制造+服务”模式转变。它将连接城市和个人，在个人消费、城市管理和企业服务方面，都有着非常大的想象空间。

近日，在2021世界智能汽车大会上，商汤科技联合创始人、移动智能事业群总裁王晓刚教授发表主题演讲《通用智能拓展智能汽车边界》。

他指出，通用智能不仅可以解决大量的长尾问题，还能够不断丰富智能汽车的应用场景。商汤致力打造的SenseCore商汤AI大装置，正通过超级算力和超大模型，为智能汽车构建通用智能的能力，推动智能汽车与各个产业相互融合，不断创新驾乘体验。

以下为王晓刚教授演讲内容，商汤君整理分享给大家：非常荣幸今天能有机会与大家分享未来人工智能发展的一个重要趋势——通用智能如何打破智能汽车的边界。智能汽车正在从传统的“制造”到“制造+服务”模式转变。它将连接城市和个人，因此在个人消费、城市管理和企业服务方面，都有着非常大的想象空间。

我们知道，人工智能有三大要素：算力、算法和数据。从算力的角度看，智能汽车的算力是智慧城市视觉感知终端算力的百倍，是智能手机的几十倍。

由于汽车处于移动状态，其产生的感知数据无论在数据体量还是数据质量方面，都远高于其他领域。智能汽车就是一个巨大的、移动的数据生产源，关键是如何通过人工智能算法去挖掘这些数据背后的价值，我们认为有四类人工智能的模型：第一类是智能感知模型。车载会产生大量的视频、图像，还有3D的非结构化数据，需要通过智能的感知将这些数据高效地进行结构化。第二类是决策智能。数据结构化之后，需要更好地去做决策，包括更好地完成人机交互。第三类是智能内容生成。人工智能、增强现实、混合现实技术的发展为我们的物理世界打造了一个平行的虚拟世界。智能内容生成能够为虚拟世界高效地生成大量内容，让虚拟世界更加精彩。

第四类是智能内容增强。在高速运动、极暗等各种极端情况下，仍能得到高质量的图像和视频，也是人工智能模型能给数据带来的价值。

通用智能拓展智能汽车边界

通过人工智能拓展智能汽车的边界，需要解决两方面的问题：

第一，需要解决大量的长尾问题。比如在智能驾驶的过程中，有很多场景出现的频次很低，也没有大数据的支撑去做训练，但是一旦出现其产生的后果会非常严重。未来，不同汽车智能驾驶功能的差异化，就在于谁能够去解决更多的长尾问题，满足消费者更好的体验。

第二，要不断丰富智能汽车的应用场景。比如智能驾驶中，从高速路自动巡航，到普通城区中的自动驾驶，从有高精地图到没有高精地图覆盖的广大区域;在智能车舱中，从驾驶员感知到对老人、儿童、宠物的关爱，再到智慧健康功能的应用;又如智能汽车和城市的元宇宙、增强现实、混合现实应用的融合;再如多模交互，通过基于视觉的姿态、表情、唇语的识别和语音以及自然语言理解相结合，带来更好的人机交互新体验。

随着智能汽车对人工智能的功能和需求不断提高，场景不断丰富，也就对通用人工智能提出了要求。不同于以往的单一智能，单个AI模型输入的数据类型是单一的，只能完成单一任务、适应单一场景，利用通用人工智能技术，一个模型能够输入语音、图像、文字，还有激光雷达的3D点云等多种类型的数据，并完成各种各样的任务。

通用模型的出现，能够帮助我们实现不同行业之间的融合，实现产品和场景应用的创新。

商汤致力于打造的人工智能基础设施SenseCore AI大装置，同时支撑四个领域的众多行业，包括智慧商业、智慧城市、智慧生活和智能汽车。在这些领域中，结合数据和大量行业反馈，又能够助推我们打造通用智能的研发平台和模型。

当AI大装置不断迭代，探索下一代研发体系时，就能够同时推动各行业研发体系的升级和飞跃，这将成为推动社会生产力发展非常有效的迭代方式。

基于AI大装置，商汤以“一横一纵”的方式打造了智能汽车的创新底座，推出了智能汽车解决方案的独立品牌——SenseAuto商汤绝影智能汽车平台。

“一纵”是指能够提供智能驾驶和智能车舱的全栈解决方案，“一横”是指将基础的软硬件设施提供给车厂和合作伙伴，赋能不同的主机厂。商汤也建立起路云感知平台，将车载数据、路端感知数据和其他行业的数据汇集起来，不断拓展智能汽车的应用场景。

商汤绝影的战略定位有三个：第一，帮助商汤的生态合作伙伴和客户深度挖掘汽车感知数据的价值。第二，连接智能汽车和商汤智慧产业生态，实现服务输出。

第三，实现商汤与汽车产业和生态的共生共赢。从2016年开始商汤进入智能汽车行业，截至今年上半年已有30+车企客户、50+个合作伙伴，覆盖50+种车型，在未来数年内将向2000多万辆汽车提供绝影产品。

新一代通用视觉技术体系“书生” 不久前，我们联合上海人工智能实验室、香港中文大学、上海交通大学，共同发布新一代通用视觉技术体系“书生”(INTERN)。书生训练一个通用视觉模型分几个阶段：首先汇集行业中的数据，共同打造一个通用的“通才模型”，不单会写文章，还琴棋书画样样精通，实现更强的适应性。

在此基础上，结合各个专业领域，各个场景中少量的数据，打造某个专业的“专才模型”，如针对智慧城市、自动驾驶、文化旅游等不同领域的专才模型。经过这几个阶段，可以让模型的通用性变得非常强。我们也和世界上最顶级的研究成果进行了对比，相较于OpenAI的CLIP，“书生”在只有10%的数据的情况下，就能实现超过CLIP基于完整下游数据的准确度。

在商汤两个阶段的模型生产方法中，首先是训练世界目前最大的300亿参数的视觉模型。基于这一超大模型，可以衍生出超过2万多个商用模型。

这一过程需要非常强的算力支持。我们在临港新建的商汤智算中心AIDC，拥有每秒3.74百亿亿次浮点运算的总算力、全套的自动数据标注、隐私保护和数据安全能力，同时还能够形成数据闭环。并可选择需要哪些数据进行回流，回流之后进行自动标注和模型更新。所有这些都基于AIDC和超大模型。商汤也把智能汽车和多个行业紧密地结合在一起。举一些例子：在今年世界人工智能大会上，商汤发布世界上第一款自动驾驶AR小巴。

我们将上海的一个城区进行了三维数字化，借助车载大屏和车外视觉感知设备，就可以形成虚拟世界和物理世界的融合。乘客坐在车里可以体验到城市的发展、经济文化的创新，就像坐在穿梭的博物馆中。

此外，数字人已经应用于各行各业，商汤也把它引入到了智能车舱中，根据消费者的喜好，实现千人千面。商汤还把智慧健康引入到车舱当中，让乘员在车舱中即可检测心率、呼吸频率、血压等情况，通过视觉手段，给消费者带来关爱和长期关怀。

人工智能正在快速从单一智能向通用智能发展。商汤也致力于打造人工智能基础设施，促进产业融合，不断拓展智能汽车的应用边界和场景，与合作伙伴一起迎接智能汽车的新未来。