电子说
适用范围 :RA8P1 (Ethos‑U55)
工具链 :e2 studio 集成 RUHMI
说明 :本工程是基于官方示例人脸识别工程基础上进行教学,本教程仅新增 手势识别 模型的获取、转换与部署。
为了更好地理解本教程,建议先了解以下核心技术概念,这将有助于你理解为什么需要进行“模型转换”和“量化”操作。
sub_xxxx_command_stream.c 就是 NPU 的指令集。RUHMI (Renesas AI) 有两种安装方式:一种是图形化界面,一种是命令行。本教程讲解通过图形化界面进行安装与配置。
首先下载并安装 Pyron e2 studio。安装完成后打开模型转换工具(RUHMI Dashboard)。

(图示路径)
如果在选择路径后提示环境缺失(如提示找不到 Python),请按照以下步骤安装。
第一步:下载 Python 3.10
e² studio 通过 Windows 的 py 启动器检测版本,必须安装官方纯净版。
下载地址 或前往 Python 官网下载 Python 3.10.x(建议 3.10.11 或更新版本)。
第二步:安装设置(非常重要)
运行安装包时,在第一个界面:
Add Python 3.10 to PATH —— 保护现有环境,避免冲突。Install launcher for all users (Recommended) —— 让 e² studio 能通过 py -3.10 命令找到它。Install Now 完成安装。安装完成后,重启 e2 studio,按照之前的步骤再次点击 Setup Environment 。
当出现如下图示时,代表环境配置成功:
本节介绍从数据集准备到训练出 .pt 文件的全流程。
ok、palm(张开手掌)192x192,RGB 3通道x/255 (0..1),无 mean/std 减法我们使用 HaGRID 的 YOLO 格式数据,仅保留两类(0=ok, 1=palm)。
在 Windows PowerShell 执行以下命令:
mkdir D:gesture_ai
cd D:gesture_ai
# 下载示例数据集 (约10GB)
curl.exe -L -o yolo_format.zip "https://huggingface.co/datasets/testdummyvt/hagRIDv2_512px_10GB/resolve/main/yolo_format.zip?download=true"
# 解压
mkdir hagrid_yolo_sample
tar -xf .yolo_format.zip -C .hagrid_yolo_sample
目录结构示例 :
D:gesture_aihagrid_ok_palm_1imagestrain|val|testD:gesture_aihagrid_ok_palm_1labelstrain|val|testD:gesture_aihagrid_ok_palm_1data_ok_palm.yaml
1. 拉取代码库
cd D:gesture_ai
git clone https://github.com/Nota-NetsPresso/ModelZoo-YOLOFastest-for-ARM-U55-M85.git
cd .ModelZoo-YOLOFastest-for-ARM-U55-M85
pip install -r requirements.txt
2. 解决版本兼容性问题
torch >= 1.11, < 2.0。pip install "numpy<2"pip uninstall -y torch torchvision
pip install torch==1.13.1+cu117 torchvision==0.14.1+cu117 --index-url https://download.pytorch.org/whl/cu117
D:gesture_ai.venvScriptspython.exe train.py
--data D:gesture_aihagrid_ok_palm_1data_ok_palm.yaml
--cfg .modelsyolo-fastest.yaml
--weights ""
--imgsz 192
--batch-size 64
--epochs 200
--device 0
--workers 4
--project D:gesture_airuns
--name ok_palm_192
--exist-ok
--noplots

训练完成后得到 best.pt。
解决方法:将 --workers 设为 0 并续训。
D:gesture_ai.venvScriptspython.exe train.py
--resume D:gesture_airunsok_palm_192weightslast.pt
--epochs 200
--workers 0
...
RUHMI 支持导入 ONNX,因此我们需要将 PyTorch 模型导出为 ONNX 格式。需要保留两路 head 输出给板端处理。
注意 :必须在仓库根目录下运行导出脚本,否则会报 ModuleNotFoundError: No module named 'models'。
export_onnx_heads.py在仓库根目录新建文件 export_onnx_heads.py,代码如下:
import torch
import torch.nn as nn
CKPT = r"D:gesture_ai
unsok_palm_192weightsest.pt"
OUT = r"D:gesture_aiok_palm_192_heads.onnx"
ck = torch.load(CKPT, map_location="cpu")
model = ck["model"].float().eval()
class HeadWrapper(nn.Module):
def __init__(self, m):
super().__init__()
self.m = m
def forward(self, x):
y, feats = self.m(x)
# feats[0] - > (1,3,12,12,7)
# feats[1] - > (1,3,6,6,7)
return feats[0], feats[1]
w = HeadWrapper(model)
dummy = torch.zeros(1, 3, 192, 192)
torch.onnx.export(
w,
dummy,
OUT,
input_names=["images"],
output_names=["p4_12x12", "p5_6x6"],
opset_version=13,
do_constant_folding=False,
)
print("saved:", OUT)
D:gesture_ai.venvScriptspython.exe .export_onnx_heads.py
正常导出的 ONNX 文件大小约为 1MB 左右。
参考关于RA生态工作室的视频号回放:
启动 RUHMI AI Navigator 进行转换。
用于 INT8 量化校准。建议从训练集中随机抽取 200 张图片。
PowerShell 随机抽取脚本:
$src = "D:gesture_aihagrid_ok_palm_1images rain"
$dst = "D:gesture_aicalib_ok_palm_200"
mkdir $dst -Force | Out-Null
Get-ChildItem $src -File | Get-Random -Count 200 | Copy-Item -Destination $dst
在 AI Navigator 中选择该目录作为 Calibration dataset。
由于训练时只做了 x/255 归一化,板端输入必须匹配。
推荐设置(板端输入 0..1 float) :
0, 0, 01, 1, 1 (如果在板端没做 /255,这里要设为 255)注意 :不要使用
mean=127.5, std=127.5,那是 -1..1 的归一化方式。

转换成功后,关键生成的源文件位于 buildMCUcompilationsrc:
model.c/.hsub_xxxx_model_data.c/.hsub_xxxx_invoke.c/.h
目标:将 CPU-only 产物集成到 RT-Thread 工程,验证前处理与解码逻辑。
将 RUHMI 生成的 compilationsrc 下的文件复制到工程目录 src/models/:
compute_sub_0000.cmodel.ckernel_library_int.ckernel_library_utils.c
修改 src/models/SConscript,加入刚复制的源文件:
src = [
os.path.join(cwd, 'model.c'),
os.path.join(cwd, 'compute_sub_0000.c'),
os.path.join(cwd, 'kernel_library_int.c'),
os.path.join(cwd, 'kernel_library_utils.c'),
]

修改 src/hal_entry.c,确保输入转为 0..1 (float):
const float inv255 = 1.0f / 255.0f;
dst[0 * plane_size + pixel_idx] = (float)r * inv255;
dst[1 * plane_size + pixel_idx] = (float)g * inv255;
dst[2 * plane_size + pixel_idx] = (float)b * inv255;

修改 src/yolo/yolo_rtthread.c,使用 YOLOv5 的解码公式替代传统 Darknet 公式:
float stride_pix = (float)INPUT_W / (float)grid;
float cx = (sigmoid(tx) * 2.0f - 0.5f + j) * stride_pix;
float cy = (sigmoid(ty) * 2.0f - 0.5f + i) * stride_pix;
float ww = (sigmoid(tw) * 2.0f); ww = ww * ww * anchor_w;
float hh = (sigmoid(th) * 2.0f); hh = hh * hh * anchor_h;


目标:启用 NPU 加速。RUHMI 针对 NPU 通常生成“三段式”代码:前处理(CPU) -> NPU推理 -> 后处理(CPU)。
RUHMI NPU 版输出包含 sub_0001 (NPU) 等部分。需复制以下文件到 src/models/:
compute_sub_0000.c (CPU 前处理)compute_sub_0002.c (CPU 后处理)sub_0001_*.c (NPU 相关:command strteam, weights, invoke)model.c, ethosu_common.h 等
修改 SConscript,加入所有新文件:
src = [
os.path.join(cwd, 'model.c'),
os.path.join(cwd, 'compute_sub_0000.c'),
os.path.join(cwd, 'compute_sub_0002.c'),
os.path.join(cwd, 'sub_0001_command_stream.c'),
os.path.join(cwd, 'sub_0001_invoke.c'),
os.path.join(cwd, 'sub_0001_model_data.c'),
os.path.join(cwd, 'sub_0001_tensors.c'),
# ... 其他依赖库
]
1. Arena 放入 OSPI RAM
修改 sub_0001_invoke.c,将 arena 数组放到 OSPI 段,避免占用宝贵的内部 SRAM:
__attribute__((aligned(16), section(".ospi1_cs0_noinit"))) uint8_t sub_0001_arena[...];

2. 输入数据写入 Arena
NPU 的输入通常直接映射到 Arena 的起始位置(offset 0)。
修改 model.c, 直接将量化后的数据写入 Arena ,而不是临时 buffer:
// 获取 NPU 输入在 Arena 中的地址
int8_t* npu_in = (int8_t*)(sub_0001_arena + sub_0001_address_images_...);
// 执行前处理,直接输出到 npu_in
compute_sub_0000(compute_arena_sub_0000, buf_images, npu_in);
3. Cache 维护 (非常重要)
在调用 NPU 前后必须维护 D-Cache,否则 NPU 读不到最新数据或 CPU 读不到 NPU 的输出。
// Invoke 前:Clean (将 CPU 写的数据刷入 RAM)
SCB_CleanDCache_by_Addr(sub_0001_arena, sizeof(sub_0001_arena));
// Invoke
sub_0001_invoke(...);
// Invoke 后:Invalidate (让 CPU 重新从 RAM 读取)
SCB_InvalidateDCache_by_Addr(sub_0001_arena, sizeof(sub_0001_arena));
CONF_THRESH 设低(如 0.2),观察 max_sig,确认有检测结果后再调高。
审核编辑 黄宇
全部0条评论
快来发表一下你的评论吧 !