一文掌握瑞芯微RK系列NPU算子支持全景：覆盖6大平台，新增硬件加速算子，嵌入式AI开发不踩坑

jf_44130326 2026-02-06 1858

电子说

1.4w人已加入

描述

在嵌入式 AI 领域，瑞芯微（Rockchip）RK 系列 NPU 凭借低功耗、高兼容性的特性，广泛应用于智能监控、边缘计算、物联网设备等场景。近期发布的《RKNN Compiler Support Operator List v2.0.0-beta》文档，不仅更新了 6 大主流平台的算子支持细节，还新增了exSDPAttention、exMatMul 等硬件加速算子，为开发者提供了更清晰的开发指引。

今天就带大家全面梳理这份文档的核心内容，从平台特性到算子细节，从开发注意事项到场景适配，帮你快速找到适合自身需求的 RK NPU 方案。

一、平台全景：6 大系列各有侧重，覆盖从入门到高端

瑞芯微 RK NPU 家族涵盖从入门级到高端旗舰的全场景需求，每个平台在算子支持、性能优化上各有侧重，开发者可根据设备算力、功耗、精度需求精准选型。

1. RK3566/3568：入门级嵌入式 AI 首选

•核心定位：低功耗、小算力场景，适合对成本敏感的嵌入式设备

•算子支持：基础算子全覆盖——Add/Sub/Mul、卷积（Conv/Depthwise Conv）、池化（Global Avg/MaxPool、AveragePool）、激活函数（ReLU、LeakyReLU、Mish）均支持；部分支持 GRU/LSTM（扩展为 exGRU/exLSTM 算子），满足轻量时序模型需求。

•数据类型：int8（量化推理）、float16（半精度推理）双支持，平衡精度与性能。

•关键约束：Global AveragePool 的 height 范围需注意 ——RKNN-Toolkit2 支持 [1,343]，Compiler 仅支持 [1,7]；Transpose 仅支持 5 种固定轴顺序（如 perm=[0,3,1,2]）。

•适用场景：智能家居设备（如智能音箱、小家电 AI 交互）、小型监控摄像头、低功耗物联网传感器。

2. RK3588：高端旗舰，多核协同提升 AI 性能

•核心定位：中高端边缘计算，支持多任务并发推理

•算子亮点：

◦新增exSDPAttention（注意力机制）、exMatMul（矩阵乘）硬件加速，适配 Transformer 类模型（如轻量 NLP 模型）；

◦卷积类 Fuse OP 成熟：支持 Conv+ReLU/Clip/Sigmoid/Tanh 等 10 + 种组合，减少算子调度开销；

◦Softmax 硬件支持 channel/width 双方向（axis=1/3），channel 最大支持 8192。

•独家特性：业内首个支持多核协同的 RK NPU 平台，Add、Conv、Concat 等基础算子已实现多核并行，算力利用率提升 40%+。

•适用场景：高端智能相机（多目标检测 + 跟踪）、边缘 AI 网关（同时处理视频分析 + 数据转发）、工业质检设备。

3. RV1103/1106：低功耗安防专用，优化监控场景

•核心定位：安防领域低功耗方案，主打轻量视觉推理

•算子优化：针对监控场景强化——Global Pool、Conv 算子适配小分辨率视频流；支持 exSoftmaxMask（带掩码的 Softmax），可快速实现目标遮挡场景的推理修正。

•数据类型：以 int8 为主（量化推理功耗更低），部分支持 float16，适配安防场景的低精度需求。

•关键优势：Transpose 支持 NCHW 转 NHWC 等 4 种模式，且对齐要求宽松（8bit 16 对齐、16bit 8 对齐），视频数据格式转换效率更高。

•适用场景：智能门铃、低功耗摄像头（电池供电）、车载环视（轻量感知任务）。

4. RK3562：中端均衡之选，强化时序模型支持

•核心定位：中端嵌入式 AI，平衡算力与成本

•算子特色：

◦支持 GRU（exGRU）算子，sequence/input_size 分别要求 4/8 对齐，适配时序数据（如语音、传感器时序）；

◦LayerNorm 支持预归一化（pre_norm），可防止推理溢出，适配 Transformer 类模型；

◦硬件支持 exSDPAttention，轻量 NLP 任务推理速度提升明显。

•适用场景：工业检测（如流水线缺陷识别）、中端物联网设备（带语音交互的智能终端）。

5. RK3576：V2.0.0-beta 新增平台，聚焦 Transformer 优化

•核心定位：新发布中端平台，主打 Transformer 模型适配

•算子亮点：

◦硬件支持 exSDPAttention、exMatMul，解决 Transformer 模型在嵌入式设备上的推理瓶颈；

◦Conv+Add+ReLU 等组合 Fuse OP 全覆盖，CNN 模型推理效率优化；

◦多核协同初步支持（Conv、Depthwise Conv），后续版本将扩展更多算子。

•适用场景：需要兼顾 CNN 与 Transformer 推理的设备（如带文本分类的图像识别终端）、边缘 AI 盒子。

6. RK2118：简化开发，float16 专属平台

•核心定位：轻量浮点推理场景，降低多精度适配成本

•独特之处：仅支持 float16 数据类型，无需兼顾 int8 量化适配，开发流程简化；基础算子（Conv、Pool、激活函数）全覆盖，exGlu 算子支持，满足轻量浮点模型需求。

•约束说明：无 int8 支持，不适合对功耗、算力要求严苛的场景。

•适用场景：对推理精度要求高的轻量设备（如医疗便携检测设备、高精度传感器数据处理终端）。

二、核心共性与差异化：开发者必知的关键特性

1. 全平台共性优势

•数据类型：除 RK2118 外，均支持 int8（量化）+float16（半精度），兼顾 “低功耗” 与 “高精度” 需求；

•基础算子全覆盖：Add、Sub、Mul、Conv、Pool（Avg/Max）、激活函数（ReLU、Sigmoid、Mish）等核心算子全平台支持，模型迁移成本低；

•广播机制统一：遵循 ONNX NCHW 规范，支持 4 种广播方式（如 A (N,C,H,W) 与 B (C,1,1)、B (H,W) 广播），算子调用逻辑一致；

•Fallback 保障：不支持的算子自动转 CPU 执行（CPU 支持 ArgMin/ArgMax、GRU、InstanceNormalization 等超 100 种算子），模型兼容性拉满；

•GPU 辅助：GPU 仅支持 MatMul 算子（float16，需设置 GPU 优先），满足矩阵乘场景的算力补充。

2. 平台差异化亮点速查表

平台

核心优势

数据类型

独家特性

适用场景

RK3566/3568

入门级成本低

int8/float16

无

低功耗小设备

RK3588

多核协同，算力强

int8/float16

多核并行、exSDPAttention

高端边缘计算

RV1103/1106

低功耗，安防优化

int8 为主

Transpose 效率优化

低功耗摄像头

RK3562

时序模型支持

int8/float16

exGRU、LayerNorm pre_norm

工业检测、语音交互

RK3576

新平台，Transformer 优化

int8/float16

硬件 exMatMul

多模型融合设备

RK2118

简化开发，浮点专属

float16 only

无 int8 适配成本

高精度轻量设备

三、开发避坑指南：关键约束与建议

1.输入输出规格需注意

◦宽度对齐：零拷贝 API 下，RK3566/3568（int8 channel=1,3,4 时 8 对齐）、RK3588（int8 16 对齐）、RV1103/1106（16 对齐），需通过 w_stride 属性查询实际对齐要求；

◦维度限制：多数平台默认支持 4 维输入（NCHW），非 4 维输入需 CPU fallback；

◦输出 Layout：NC1HWC2 格式需 Channel 对齐（如 RK3588 int8 最后一层卷积需 32 对齐）。

1.算子约束要牢记

◦Concat/Split：Channel 方向需对齐（8bit 8 对齐、16bit 4 对齐，RK3576/RK2118 为 16/8 对齐）；

◦Resize：仅支持最近邻 / 线性插值，放大倍数≤8 倍；

◦GRU/LSTM：sequence 建议 4 对齐，hidden_size 建议 8 对齐，双向模式仅支持 batch=1。

1.版本选择有技巧

◦优先使用V2.0.0-beta 版本：新增 RK3576/RK2118 支持，修复历史约束（如 RK3588 Transpose 限制），硬件加速算子更丰富；

◦参考配套文档：《Rockchip_RKNPU_User_Guide_RKNN_SDK》可获取零拷贝 API、mean/scale 配置细节，避免踩坑。

四、结语：RK NPU，嵌入式 AI 的灵活工具箱

瑞芯微 RK 系列 NPU 通过 6 大平台的差异化布局，覆盖了从入门到高端、从低功耗到高性能的全场景嵌入式 AI 需求。无论是需要成本敏感的小家电，还是追求算力的边缘网关，亦或是专注安防的低功耗摄像头，都能找到适配的方案。

随着 V2.0.0-beta 版本新增硬件加速算子（exSDPAttention、exMatMul）和新平台支持，RK NPU 的 Transformer 模型适配能力进一步增强，为嵌入式 AI 开发者提供了更灵活的选择。

如需获取完整算子支持列表（含详细参数约束、输入输出计算示例），可参考瑞芯微官方文档《RKNN Compiler Support Operator List v2.0.0-beta》，也欢迎在评论区交流你的开发场景，一起探讨 RK NPU 的最佳实践！

打开APP阅读更多精彩内容