“市面上现有的AI大模型虽然头脑逐渐发达,却无法与物理世界产生交互。”肇观电子创始人冯歆鹏告诉高工移动机器人,要真正实现交互,还有大量的问题没有被解决,当前AI只能解决1%不到的问题,还有99%的问题亟待空间智能解决。
空间智能:让机器理解世界
“人类智能可以简要归纳为两大智能,‘语言智能’和‘空间智能’。虽然语言智能备受关注,但空间智能将对 AI 产生巨大影响。”AI教母李飞飞曾在演讲中提到:世界是3D 的,空间智能是视觉智能的发展方向。
她认为,人工智能正处于一个激动人心的阶段,而空间智能技术使机器能够与人,以及真实或想象中的三维世界进行互动。
英伟达高级计算机科学家 Jim Fan 也称,空间智能,是计算机视觉和实体智能体的下一个前沿。
2024年4月份,李飞飞被曝创业——投身纯视觉的“空间智能”。
直到2024年12月,其初创公司 World Labs 终于官宣了空间智能模型:仅用一张简单的图片就能生成一个3D世界。
值得注意的是,里面所有场景都能在浏览器中实时渲染,还能实现可控的相机效果、可调节的模拟景深。
这让很多人看到了空间智能的希望——能显著提升游戏、教育等行业的效率和体验。然而,空间智能的未来远不止此。
空间智能到底是什么?
按照World Labs 联合创始人贾斯汀的说法,空间智能是指机器在三维空间和时间中感知、推理和行动的能力。也就是让机器理解物体和事件在三维空间和时间中的位置,以及世界中的交互如何影响这些三维位置,从而完成感知、推理、生成、交互等任务,真正将机器从大型机或数据中心中解放出来,让它进入现实世界,并理解这个丰富多彩的三维、四维世界。
简单来说,就是让机器能像人类一样,能够理解世界,拥有复杂的视觉感知推理能力。
这很难,仅靠纯视觉+AI 真的能完成吗?
肇观电子:成为端侧英伟达
肇观电子创始人冯歆鹏给出了答案:要让智能设备看得懂世界,首先得看得见世界和看得清楚世界。
对于智能设备来说,世界反馈的信息是爆炸式的,要理解一张图片或者一段视频,背后的算力需求极其庞大,因此芯片异常重要。
作为前AMD芯片研发总监,冯歆鹏主导和参与设计了50余款数千万量级的顶尖CPU和GPU芯片。他清楚传统的CPU、GPU芯片面对海量的像素信息无法高效满足实时处理需求,因此,选择了研发VPU芯片,即视觉处理器。
它区别于传统芯片,可以实时处理端侧数据、聚焦光子到比特的问题,从大量信息中提取有价值的少量信息,专门解决像素爆炸的痛点。
让智能设备通过“光电转换的Sensor+VPU” 的硅基系统看世界,就像人通过“视网膜+大脑的视神经皮层” 的碳基系统看世界一样,智能设备也能理解物理世界中的关键信息。
“AI 其实是模拟人的代码。人的大脑分为两部分思维方式,一部分是想象,即从少量信息生成多量信息这个过程,在AI里对应GPU;另一部分是从大量信息中抽取少量信息,这部分对应VPU。也就是说,VPU+GPU共同构成AI。”
冯歆鹏接着说道,目前做GPU的企业像英伟达已经跑出了近4万亿美金的市值,而视觉作为智能的基础,重要性更高,可以说,解决视觉问题就是解决一半的人工智能问题。
“将来VPU市场一定会诞生万亿美元的公司,这是一条值得耕耘百年甚至更久的赛道。”冯歆鹏表示,肇观电子的目标,是成为“端侧的英伟达”。
五大技术助力空间智能实现
肇观电子成立于2016年,专注于人工智能计算机视觉处理芯片设计和终端应用,是空间智能的核心供应商。
“市面上现有的AI大模型虽然头脑逐渐发达,却无法与物理世界产生交互。”冯歆鹏告诉高工移动机器人,要真正实现交互,还有大量的问题没有被解决,当前 AI 只能解决1%不到的问题,还有99%的问题亟待空间智能解决。
在不断助力空间智能实现的路上,肇观电子已有所成就。
针对像素处理的效率问题、算力带来的能源问题、低延时的必要性以及VPU和GPU的互补性等,肇观电子坚持给每一代产品应用五大底层技术——成像、3D、AI、VSLAM加速以及SoC,帮助智能设备感知真实世界。
成像
芯片自带ISP图像处理,可以解决强光、弱光和逆光等各种特殊光照条件下的成像问题,HDR与极暗光照成像效果业界领先;并且精调80多种sensor,适配性强。
3D
3D几何计算引擎设计领先,利用空间和时间相关性信息计算输出高精度深度图,反过来推算出自身在空间环境中的位置,和其他物体进行互动。
AI
支持包括Transformer在内的各类神经网络模型,支持INT8并同时支持 FP16 ,硬件引擎利用率业界领先。
VSLAM
VSLAM-lib可实现视觉实时三维重建加速,和定位及构图硬件加速,使得设备能够在三维空间中精准定位和空间建模。
SoC
采用SoC单芯片方案,高度集成上述多种能力,单颗芯片集成了30个小芯片,具备性能高、功耗低、成本低、系统复杂度低的特点。并且接口丰富,软件完全自主可控,支持客户灵活开发。
基于这五大底层技术,肇观电子目前已成功发布具备先进视觉处理能力的V系列、D系列、N系列芯片及模组,广泛应用于辅助驾驶、工业和机器人等领域。
在泛机器人领域,肇观电子的产品广泛应用于工业机器人、服务机器人、割草机器人、无人机以及人形机器人,是多家移动机器人头部企业的合作商。
其代表产品费曼系列相机,基于自主研发的NE-D163A 主控SoC人工智能视觉芯片,籍由NE-D163A 强大的ISP、DSP、CNN 和 Depth 处理能力,能够提供主动双目立体视觉感知能力,在室内外各种场景,均能生成高帧率和高精度的深度图,同时支持端侧实时智能AI算法的部署。
下图为费曼相机的真实成像,冯歆鹏介绍道,跟Intel RealSense 相比,费曼相机生成的深度图噪点更少,而且拥有AI加持。
目前,费曼系列相机已经被广泛使用在AGV/AMR、机械臂、各类移动机器人、无人机、工业检测等生产的各个场景,累计出货5万套以上并快速增长。
最后
虽然目前离李飞飞所言的空间智能还有一定距离,但其基本技术——纯视觉的落地应用已有广泛布局。
像特斯拉就是纯视觉坚定的支持者;近年来大兴的人形机器人因着数据收集及学习的需要,应用的技术也大多是纯视觉;多家移动机器人及汽车厂商也应用了纯视觉技术。
高工机器人产业研究所(GGII)数据显示,2023年中国机器视觉市场规模185.12亿元(该数据未包含自动化集成设备规模),同比增长8.49%。
相信未来技术成熟之时,空间智能定能如冯歆鹏预测那般,成长为万亿美元市场。
—END—
全部0条评论
快来发表一下你的评论吧 !