五大技术助力空间智能实现

高工机器人 2025-01-16 1004

描述

“市面上现有的AI大模型虽然头脑逐渐发达，却无法与物理世界产生交互。”肇观电子创始人冯歆鹏告诉高工移动机器人，要真正实现交互，还有大量的问题没有被解决，当前AI只能解决1%不到的问题，还有99%的问题亟待空间智能解决。

空间智能：让机器理解世界

“人类智能可以简要归纳为两大智能，‘语言智能’和‘空间智能’。虽然语言智能备受关注，但空间智能将对 AI 产生巨大影响。”AI教母李飞飞曾在演讲中提到：世界是3D 的，空间智能是视觉智能的发展方向。

她认为，人工智能正处于一个激动人心的阶段，而空间智能技术使机器能够与人，以及真实或想象中的三维世界进行互动。

英伟达高级计算机科学家 Jim Fan 也称，空间智能，是计算机视觉和实体智能体的下一个前沿。

2024年4月份，李飞飞被曝创业——投身纯视觉的“空间智能”。

直到2024年12月，其初创公司 World Labs 终于官宣了空间智能模型：仅用一张简单的图片就能生成一个3D世界。

值得注意的是，里面所有场景都能在浏览器中实时渲染，还能实现可控的相机效果、可调节的模拟景深。

这让很多人看到了空间智能的希望——能显著提升游戏、教育等行业的效率和体验。然而，空间智能的未来远不止此。

空间智能到底是什么?

按照World Labs 联合创始人贾斯汀的说法，空间智能是指机器在三维空间和时间中感知、推理和行动的能力。也就是让机器理解物体和事件在三维空间和时间中的位置，以及世界中的交互如何影响这些三维位置，从而完成感知、推理、生成、交互等任务，真正将机器从大型机或数据中心中解放出来，让它进入现实世界，并理解这个丰富多彩的三维、四维世界。

简单来说，就是让机器能像人类一样，能够理解世界，拥有复杂的视觉感知推理能力。

这很难，仅靠纯视觉+AI 真的能完成吗?

肇观电子：成为端侧英伟达

肇观电子创始人冯歆鹏给出了答案：要让智能设备看得懂世界，首先得看得见世界和看得清楚世界。

对于智能设备来说，世界反馈的信息是爆炸式的，要理解一张图片或者一段视频，背后的算力需求极其庞大，因此芯片异常重要。

作为前AMD芯片研发总监，冯歆鹏主导和参与设计了50余款数千万量级的顶尖CPU和GPU芯片。他清楚传统的CPU、GPU芯片面对海量的像素信息无法高效满足实时处理需求，因此，选择了研发VPU芯片，即视觉处理器。

它区别于传统芯片，可以实时处理端侧数据、聚焦光子到比特的问题，从大量信息中提取有价值的少量信息，专门解决像素爆炸的痛点。

让智能设备通过“光电转换的Sensor+VPU” 的硅基系统看世界，就像人通过“视网膜+大脑的视神经皮层” 的碳基系统看世界一样，智能设备也能理解物理世界中的关键信息。

“AI 其实是模拟人的代码。人的大脑分为两部分思维方式，一部分是想象，即从少量信息生成多量信息这个过程，在AI里对应GPU;另一部分是从大量信息中抽取少量信息，这部分对应VPU。也就是说，VPU+GPU共同构成AI。”

冯歆鹏接着说道，目前做GPU的企业像英伟达已经跑出了近4万亿美金的市值，而视觉作为智能的基础，重要性更高，可以说，解决视觉问题就是解决一半的人工智能问题。

“将来VPU市场一定会诞生万亿美元的公司，这是一条值得耕耘百年甚至更久的赛道。”冯歆鹏表示，肇观电子的目标，是成为“端侧的英伟达”。

五大技术助力空间智能实现

肇观电子成立于2016年，专注于人工智能计算机视觉处理芯片设计和终端应用，是空间智能的核心供应商。

“市面上现有的AI大模型虽然头脑逐渐发达，却无法与物理世界产生交互。”冯歆鹏告诉高工移动机器人，要真正实现交互，还有大量的问题没有被解决，当前 AI 只能解决1%不到的问题，还有99%的问题亟待空间智能解决。

在不断助力空间智能实现的路上，肇观电子已有所成就。

针对像素处理的效率问题、算力带来的能源问题、低延时的必要性以及VPU和GPU的互补性等，肇观电子坚持给每一代产品应用五大底层技术——成像、3D、AI、VSLAM加速以及SoC，帮助智能设备感知真实世界。

成像

芯片自带ISP图像处理，可以解决强光、弱光和逆光等各种特殊光照条件下的成像问题，HDR与极暗光照成像效果业界领先;并且精调80多种sensor，适配性强。

3D几何计算引擎设计领先，利用空间和时间相关性信息计算输出高精度深度图，反过来推算出自身在空间环境中的位置，和其他物体进行互动。

支持包括Transformer在内的各类神经网络模型，支持INT8并同时支持 FP16 ，硬件引擎利用率业界领先。

VSLAM

VSLAM-lib可实现视觉实时三维重建加速，和定位及构图硬件加速，使得设备能够在三维空间中精准定位和空间建模。

SoC

采用SoC单芯片方案，高度集成上述多种能力，单颗芯片集成了30个小芯片，具备性能高、功耗低、成本低、系统复杂度低的特点。并且接口丰富，软件完全自主可控，支持客户灵活开发。

基于这五大底层技术，肇观电子目前已成功发布具备先进视觉处理能力的V系列、D系列、N系列芯片及模组，广泛应用于辅助驾驶、工业和机器人等领域。

在泛机器人领域，肇观电子的产品广泛应用于工业机器人、服务机器人、割草机器人、无人机以及人形机器人，是多家移动机器人头部企业的合作商。

其代表产品费曼系列相机，基于自主研发的NE-D163A 主控SoC人工智能视觉芯片，籍由NE-D163A 强大的ISP、DSP、CNN 和 Depth 处理能力，能够提供主动双目立体视觉感知能力，在室内外各种场景，均能生成高帧率和高精度的深度图，同时支持端侧实时智能AI算法的部署。

下图为费曼相机的真实成像，冯歆鹏介绍道，跟Intel RealSense 相比，费曼相机生成的深度图噪点更少，而且拥有AI加持。

目前，费曼系列相机已经被广泛使用在AGV/AMR、机械臂、各类移动机器人、无人机、工业检测等生产的各个场景，累计出货5万套以上并快速增长。

最后

虽然目前离李飞飞所言的空间智能还有一定距离，但其基本技术——纯视觉的落地应用已有广泛布局。

像特斯拉就是纯视觉坚定的支持者;近年来大兴的人形机器人因着数据收集及学习的需要，应用的技术也大多是纯视觉;多家移动机器人及汽车厂商也应用了纯视觉技术。

高工机器人产业研究所(GGII)数据显示，2023年中国机器视觉市场规模185.12亿元(该数据未包含自动化集成设备规模)，同比增长8.49%。

相信未来技术成熟之时，空间智能定能如冯歆鹏预测那般，成长为万亿美元市场。

—END—

打开APP阅读更多精彩内容