算法驱动正在重塑智能系统

Ambarella安霸半导体 2026-05-11 535

描述

Pietro Antonio Cicalese

高级技术营销工程师

仓库装卸区的一台安防摄像机，每天会采集 86400 秒视频。长途货运卡车上的车队远程信息终端，在两次加油间隙会产生数 GB 的路况影像。手术机器人的双目摄像头以每秒 60 帧的速率生成稠密点云。海量数据均产生于数字与物理世界的交界处，却几乎未被用于智能决策。

原因很简单。在联网设备时代的大部分时间里，主流架构都很简单：传感器采集、网络传输、云端计算。智能能力集中在数据中心，设备只是被动的采集工具。任何一台摄像头、雷达或激光雷达模块的价值，都取决于有多少带宽能将其数据传输到可进行有效处理的位置。

在推理难度高、网络成本低的时期，这种架构可以很好地扩展。但在当下，数十亿搭载传感器的设备产生数据的速度已超过任何网络的承载能力；而最关键的决策必须在现场、毫秒级完成，无需往返云端。这种架构已逐渐不再适用。

算法层正在向设备端迁移

过去十年，半导体行业已实现边缘侧 AI 推理落地。借助神经网络加速器、量化技术与模型压缩，使卷积神经网络能够在端侧部署。当前，数亿台终端设备可在个位数瓦特功耗范围内，本地实现实时目标检测、场景分类与运动跟踪。

感知只是第一步。当前，一场更为深远的变革正在进行，推理、规划与决策迁移到感知所在的物理层。行业关注的问题已经改变：不再是 “我们能否在这台设备上运行神经网络”，而是 “这台设备能否自主达成目标、使用工具、持续维护上下文，并在出错时自行恢复”。

这一区别至关重要，因为它标志着智能系统设计方式发生了结构性变革。无状态推理流水线是将输入映射为输出，例如感知模型在一帧图像中识别出人物并生成检测框。相比之下，智能体工作流会持续观察场景、留存历史信息、依据策略决策下一步动作、调用工具执行决策，并验证结果。推理流水线的输出是预测，智能体工作流的输出是行动。

为何智能体智能必须需要边缘计算

智能体系统与边缘计算深度绑定，原因不止于时延。三大约束让这种结合成为必然。

第一是时效性。物理系统在连续时间内运行。一台在园区内协同执行巡逻路线的云台摄像机，需要在数秒内响应事件并调整视场角，无需等待云端服务器处理过去五分钟的录像。执行基础设施巡检的无人机，必须根据摄像头实时画面即时调整飞行路径。对这些系统而言，决策时延直接决定性能，而决策时延取决于智能运行在何处。

第二是经济性。大规模将传感器原始数据流式上传到云端处理成本极高。单台高清摄像机每月产生的原始视频可达数 TB 量级；企业安防部署数千台摄像机，或智慧城市部署数万台传感器时，带宽与存储成本将高到难以承受。在数据源端处理数据，仅回传结果、元数据或异常信息，可大幅降低大规模智能系统的运营经济负担。

第三是合规性。在医疗、制造、国防与关键基础设施领域，传感器原始数据通常受隐私法规、数据驻留要求或分级管控约束。将患者、员工或敏感设施的视频上传到云端数据中心会带来合规风险。设备端处理可使数据保留在产生地，简化整个系统的合规管理。

时效性、成本与合规三大因素共同决定：最强大的智能系统，必然是将算法能力集中在物理边界侧的系统。

分布式智能作为设计范式

将智能集中在端侧，并不意味着放弃云端，而是将智能分布在不同算力层级，让每一层承担与其优势匹配的任务。

安防、车载、工业、机器人等领域已形成三层分工的实用范式：

远端边缘（设备本体）：处理器负责实时感知、首步策略执行与时敏控制闭环。

近端边缘（本地网关 / 服务器）：更强算力的处理器负责多设备协同、状态维护、多传感器事件关联，以及现场知识的本地检索。

云端：在网络允许时，由大模型执行取证分析、全域统计、长周期报表与模型生命周期管理。

这种三层架构将最时延敏感的决策保留在本地，时延最低、数据隐私最强，同时支持系统渐进式扩展。小型部署可完全在远端边缘运行，仅定期连接云端；大型园区部署可三层并用，由近端边缘协同数十台远端边缘设备，云端负责模型更新与运营汇总。

实现这一范式的核心是系统工程能力，这标志着边缘 AI 开发对从业者要求的实质性转变。开发者必须定义层间契约：哪些数据、以何种格式、在何种条件下跨层传输；必须设计平滑降级机制，确保网络断续或中断时系统仍可运行；必须构建验证闭环，让自主组件行为可预测、可审计。因此，其设计思路更接近分布式系统，而非单纯的模型训练。长期专注优化单个神经网络的团队，现在需要应对异构计算环境下的协同逻辑、工具接口、状态管理与故障恢复。换句话说，边缘智能体 AI 本质上不是机器学习问题，而是系统问题；尽早认清这一差异的团队，将在自主产品的交付速度与可靠性上拥有结构性优势。

视觉语言模型：作为协同编排核心

边缘智能下沉过程中，一项影响深远的突破是：视觉语言模型（VLM）已可在嵌入式处理器的功耗约束下运行。VLM 融合视觉感知与自然语言理解，可解析开放式指令、基于场景上下文推理，并协同专用模型工作。

目前，大多数量产智能体系统以大语言模型（LLM）作为编排层：解析任务描述、选择工具、排序子任务、并综合输出结果。这种方式在以文本、结构化数据与 API 调用为主要输入的云原生应用中已被验证有效。但边缘环境不同，主要输入是视觉数据：视频流、热成像、深度图、雷达回波。无法直接感知物理场景的编排器，必须依赖独立感知链路将视觉信息转为文本才能推理，每一次转换都会引入时延、丢失空间细节，并产生误差累积。随着视觉语言模型与多模态语言模型在能力与效率上持续成熟，编排层可直接处理原始传感输入，无需中间转换。实际效果是感知与推理形成更紧密的闭环，这正是边缘部署智能体系统所需的核心特性。

在成熟的智能体系统中，VLM 可担当编排器：负责基于上下文理解任务意图，并将需要高精度的子任务路由给专用训练模型。例如，安防摄像机收到 “监控西门是否有人尾随闯入” 指令时，由 VLM 理解意图、管理接口、全局场景推理，同时配合针对人体检测优化的专用模型完成校验。VLM 负责编排，专用模型负责精准验证。

这种混合范式意义重大：无需替换用户已信任的感知模型，即可实现灵活的场景化定制。针对车牌识别、人脸比对、烟火检测等明确高频任务训练的 CNN，依然能提供更优精度；VLM 在其上叠加一层语言驱动的灵活协同能力。

芯片架构决定了这一切能否实现。同时运行 VLM 与传统神经网络并保持实时视频处理，对处理器有明确要求：持续 AI 吞吐、高效内存利用、在受限功耗下处理多路并发负载。边缘设备受散热与体积限制，这是数据中心硬件不存在的约束，因此芯片必须针对这类负载从头设计。改装用于边缘的通用处理器，往往只能在 AI 性能与功耗效率之间二选一；而专用边缘 AI 处理器可两者兼顾。

垂直行业落地：理念变为现实

从感知到智能体智能的演进，在传感器数据密集、决策时敏、数据传输受限的行业中打开了明确机遇。

在实体安防领域，智能体系统有望将运维人员的角色从持续监控转变为仅处理异常事件。能够理解现场策略、协同巡逻路线、跨多路视频关联事件、生成结构化事件报告的摄像机，解决了视频监控长期存在的规模化难题。该行业每年部署大量具备 AI 能力的摄像机，真正的机遇在于：让这些终端内置的智能能力，真正服务于每天依赖它们的一线人员。

在工业检测领域，部署在基础设施上的自主智能体可将视觉与传感器数据按严重程度分级，生成带完整审计追溯的维护建议，并在网络受限或禁止上云的环境中自主运行。管道腐蚀检测、新能源设备热异常识别、环境合规监测等场景，正因数据敏感、环境偏远、决策时敏，设备端推理才能发挥最大价值。

在车载领域，汽车本身已是移动的边缘计算网络。高级驾驶辅助与自动驾驶依赖车载 AI 完成实时感知与规划。下一阶段是座舱智能：多模态智能体理解语音指令、感知驾驶员状态，并在导航、空调、影音等领域专用子系统间协同。座舱智能体编排专用模块的理念，与其他行业正在普及的三层架构 + VLM + 专用模型完全一致。

在科研与野外作业中，边缘部署的筛选智能体可就地处理影像与传感器数据，标记关注目标并生成带完整溯源的结构化报告。岩土勘察、环境监测、野外生物研究等场景的共同需求：在数据采集点自主推理—— 现场网络不可靠，且漏检关键信号代价极高。

开发者生态：放大价值的关键

从感知到智能体智能的转型，归根结底是开发者层面的问题。在边缘约束下构建、测试、部署自主运行的多模型工作流，需要匹配任务复杂度的工具链。

在边缘 AI 行业，能简化开发与部署的芯片公司，将吸引最广泛的生态：独立软件开发商、原始设备制造商、系统集成商。这一规律在相邻市场反复验证：降低开发者门槛的平台，最终拥有最大应用装机量，进而吸引更多开发者。提供优化模型、验证过的参考工作流、低代码搭建工具、跨硬件统一软件栈的企业，可降低整个生态的单项目工程成本。在这种环境下，开发者体验与芯片本身同样是核心竞争力。

安霸在 2026 年国际消费电子展（CES）推出的开发者社区（DevZone），正是其边缘 AI 战略的体现。开发者专区通过 Cooper 模型花园集中提供优化模型，提供低代码 / 无代码智能体蓝图，用于快速搭建多智能体工作流原型；并提供入门资源，帮助独立软件开发商与系统集成商通过 Cooper 开发平台，在安霸 CV7 与 N1 系列 SoC 上完成从评估到部署的全流程。其目标是打造一条覆盖全边缘 AI 产品线（从远端边缘终端到近端边缘基础设施）的原型到量产标准化路径。

开发工具本身也在进化。嵌入式 AI 开发历来要求开发者精通设备专用工具链、SDK 接口与硬件感知优化，这类人才稀缺，并成为边缘 AI 平台扩展的瓶颈。自然发展方向是让开发环境本身智能化：工具能理解开发者意图、知晓目标硬件能力与约束，并屏蔽底层平台复杂度。随着语言模型在代码生成、工具使用、多步规划上能力增强，“描述应用” 到 “产出可运行设备端程序” 的差距将大幅缩小。尤其对边缘 AI 平台而言，同一套应用逻辑可能需要跨不同加速器配置与 SDK 版本的处理器家族运行，这种门槛降低将显著扩大可高效开发的开发者生态规模。

算法驱动的未来

到 2030 年底，全球联网设备数量预计将达到约 400 亿台。其中绝大多数将搭载传感器，且越来越多设备将配备可本地运行神经网络的处理器。

第一波边缘 AI 浪潮使这些设备具备感知能力。正在到来的下一波浪潮将赋予它们目的性：能够自主达成目标、维护上下文、使用工具、协同其他设备与云端。最终形成的系统将不再像被动传感器，而更像嵌入物理世界、在真实约束下运行的协作体，其行为由运行在其上的算法驱动。

长远来看，万物终将由算法驱动。行业需要回答的问题是：这些算法运行在哪里、如何架构、由谁打造可规模化部署的工具链。能很好回答这些问题的企业与开发者，将定义智能系统的下一个时代。

打开APP阅读更多精彩内容