Firefly-RK1828 赋能视频大模型：多目标+全场景，引领智能分析新风向

Firefly开源团队 2026-04-15 1451

如今，在视频分析领域，传统检测模型存在这一局限：单个模型只能聚焦单一目标检测，面对复杂场景中多样的检测需求时，往往需要多套模型叠加部署才能满足。这不仅增加开发成本，还会有响应延迟、兼容性不足等问题。

针对这一问题，我们基于 Firefly RK1828 开发套件，搭载南京锐景专属视频分析算法，以视频大模型为核心，实现「多目标检测+全场景适配」，可自定义各种问题，适应多种非典型场景，通过自然语言描述，来定制大模型的检测目标。

视频大模型全目标检测

本次搭载的视频分析算法，是由南京锐景专为 RK1828 + RK3588 开发套件量身打造，视频大模型可以对视频流进行全方位解析，具备以下检测优势：

1. 突破单任务模型局限，支持全域检测

打破传统模型「一个模型只做一种检测」的局限，可以对视频流进行全方位智能解析，支持任意目标统一检测，无需针对不同目标部署多套模型，极大简化开发与部署流程。

2. 大分辨率图像单次检测耗时＜1s

依托高效的模型架构与推理引擎，在保证高精度的同时实现极速检测。大分辨率图像单次推理耗时控制在1秒以内，满足实时视频流、快速预警等对延迟敏感的场景需求，为安防与监测业务争取黄金处置时间。

3. 自然语言交互，零代码配置检测任务

支持通过自然语言描述设置检测任务，无需修改模型、编写代码或重新训练，即可快速定义需要识别的对象与规则，大幅降低使用门槛，提升场景配置效率。

4. 全品类识别，覆盖人、车、物及行为状态

可快速识别并精准判断场景中的人员、车辆、物体等常规目标，同时支持特定行为、异常状态等复杂事件检测，泛用性更强，适配多样化检测需求。

以下是场景检测演示：

通过提问式指令设定检测目标，例如对大模型进行提问：图中是否有红色或绿色的车辆经过，如果有请回答1，否则回答0。如图为演示结果，大模型快速做出准确回答。

RK3588

同时对大模型进行多个检测问题的提问：应急车道在哪里？是否有车辆占用了应急车道？如果有，有几辆，分别是什么颜色？如图为演示结果，大模型快速对多个检测问题做出准确的回答。

RK3588

物品检测及坐标获取演示，对大模型进行提问：图中是否有公路上的障碍物？如有请给出对应的二维坐标。如图为演示结果，大模型准确识别出图中障碍物类型并标注对应坐标。

RK3588 RK3588

大模型驱动缺陷检测

大模型支持对工业与安防场景中的缺陷目标进行直接检测，无需依赖传统图像预处理或复杂规则配置。图中所示，大模型快速检测出变色呼吸机并提供其对应坐标。

RK3588 RK3588

支持Prompt过滤自定义

支持Prompt过滤自定义，可在检测任务中追加检测条件，对初步检测结果进行二次过滤与精准提取。通过灵活的自然语言表达，精准筛选目标结果，减少误报，让缺陷检测更加灵活可控。

RK3588 RK3588

图中为针对能源、安防场景优化的缺陷检测设置

多路视频流接入

算法支持同时接入多路视频流，可实现多画面同步解析、并行检测，适用于工业厂房、校园、小区、车载环视等多摄像头覆盖场景，大幅提升视频监控的效率与覆盖面，让多区域监控实现一体化管理。

多算法叠加运行

支持多种视频分析算法叠加使用，可在全目标检测的基础上，叠加行为分析、异常预警、人数统计等附加算法。例如在工业场景中，可同时检测人员违规操作、设备异常运行、外来人员闯入等多种情况，满足复杂场景下的多元化需求。

RK3588

智能报警功能

算法内置智能报警机制，当检测到设定的异常目标或行为时，可快速触发报警信号，同时留存检测证据，便于后续追溯与处理。当违规行为、危险场景或异常目标出现时第一时间发出提醒，提升场景安全管理水平。

RK3588

RK1828开发套件提供硬件支持

目前我们通过 Firefly-RK1828 开发套件完成了这套视频分析 Demo 搭建，以上提及的功能均可继进行现场演示。该套件凭借其高效算力和稳定的运行表现，对开发者和企业用户在项目开发、产品落地等方面都能提供全方位支持，加速视频分析应用场景的智能化进程。

打开APP阅读更多精彩内容