树莓派&AXCL：树莓派离线大模型新范式！

上海晶珩电子科技有限公司 2025-04-21 1015

描述

背景

经常买 Raspberry Pi 的朋友们都知道，Raspberry Pi 5 作为业内最优秀的 SBC(Single Board Computer)，除了其本身优秀的软硬件综合性能之外，为了方便更多高性能外设的拓展，新增了一组 PCIE3.0x1 外设接口，可以通过 FFC 线缆连接到官方或者第三方 HAT 组件。从去年开始树莓派就陆陆续续介绍了各种基于 HAT PCIE 拓展的方案

今年春节之后，随着 DeepSeek 破圈，树莓派的开发者们也不再限于只使用 Raspberry Pi5 运行传统的CNN小模型(例如 YOLO)。社区对大语音模型、多模态大模型、生成模型在树莓派板卡上高效率部署的诉求也越来越多。

今天开始分享由国内优秀的端侧AI芯片公司爱芯元智推出的基于 Raspberry Pi 5 的算力拓展解决方案，看看有哪些树莓派生态硬件已经/即将支持，以及其简单易上手的特性。

优势

相比树莓派官方的 Hailo8 或者 Halio8L 的算力套件，其优势如下

AI示例丰富

支持但不限于以下内容

大语言模型

DeepSeek R1 Distill、Qwen、Llama3、MiniCPM、SmolLM2、InternML

多模态大模型

Qwen2.5-VL、InternVL2.5、MiniCPM-V、SmolVLM、Janus Pro

语音类模型

Whisper、WeNet、MeloTTS、OpenVoice

生成似模型

StableDiffusionv1.5、LivePortrait

多模态模型

CLIP、YOLOWorldv2

主流 CNN&Transformer 模型

Ultralytics YOLO 全系列、SAM、DepthAnythingv2、Metric3D、RAFT-Stereo、MixFormerv2 等

资源消耗小

独立存储，运行各种AI模型不占用树莓派5 系统的 DDR 带宽；独立编解码模块，最大支持 32 路 1080P30 解码

二次开发简单

提供 C++/Python API，编解码单元已适配 FFmpeg。国内本土全栈技术方案，解决方案丰富成熟，技术支持高效

功耗低

满载功耗＜8w，可被动散热，不需额外供电，采用树莓派5 标准的适配器，通过 FFC 给 HAT 拓展算力配件供电即可

性价比高

价格实惠

硬件介绍

无论是通过已有 HAT 拓展的 M.2 2280 标准算力卡，还是针对树莓派5 定制的 HAT AI Module，共有产品特性如下：

M.2 算力卡

HAT AI Module

硬件安装

M.2 算力卡

在树莓派 5 上安装 M.2 加速卡时，首先需要准备一块 M.2 HAT+ 扩展板。参考官方链接，M.2 HAT+ 的官方版本只支持 2230、2242 的 M.2 M Key 卡，通常 AX650 加速卡是 2280 的，您可能需要考虑购买第三方的支持 2280 长度的 M.2 HAT+ 扩展板。

如果是 CM5 的用户，建议直接使用 CM5 配套的 Compute Module 5。

示意图

软件安装

AXCL 是用于在Axera芯片平台上开发深度神经网络推理、转码等应用的 C、Python 语言 API 库，提供运行资源管理，内存管理，模型加载和执行，媒体数据处理等 API。基于树莓派5安装 AXCL 驱动软件的详细过程可参考

https://axcl-pi5-examples-cn.readthedocs.io/zh-cn/latest/doc_guide_setup_sw.html

正确安装 AXCL 驱动包后，AXCL-SMI 即安装成功，直接执行axcl-smi显示内容如下：

AI 易用性

API 兼容 ONNXRuntime

考虑到树莓派开发者中，通常为了快速进行产品开发，会使用 Python API 进行快速功能验证。通常会使用 ONNXRuntime CPU 进行模型部署。因此 AXCL 的 NPU Python API 提供了“像素级”兼容，原则上只需要在以往的 ONNXRuntime Python 脚本中，仅需将 import onnxruntime as ort 修改为 import axengine as ort 即可。详细使用说明请参考 pyaxengine

AI 示例展示

普通模型

这里横向对比下其他内置算力的 SBC，从图中可以看出运行普通的 CNN 和 Transformer，RaspberryPi5+M.2 算力卡的组合计算效果更高。