如何基于OpenVINO 2022.1工具套件部署YOLOv7预训练模型

英特尔物联网 2022-08-26 2524

描述

作为视觉应用中最常见的任务之一，目标检测一直是各类新模型刷榜的必争之地，其中就以 YOLO 系列的网络结构最为突出。YOLO 的全称是 you only look once，指只通过 one-stage 的方式需要“浏览一次”就可以识别出图中的物体的类别和位置。近期YOLO官方团队又放出新版本——YOLOv7，速度、精度都超越其他变体。本文将分享如何基于 OpenVINO 2022.1工具套件部署 YOLOv7 官方提供的预训练模型。附 C++/Python 源码及使用方法。

OpenVINO 简介

用于高性能深度学习的英特尔发行版 OpenVINO 工具套件基于 oneAPI 而开发，以期在从边缘到云的各种英特尔平台上，帮助用户更快地将更准确的真实世界结果部署到生产系统中。通过简化的开发工作流程，OpenVINO 可赋能开发者在现实世界中部署高性能应用程序和算法。

在推理后端，得益于 OpenVINO 工具套件提供的“一次编写，随处部署”特性，转换后的模型能够在不同的英特尔硬件平台上运行，无需重新构建，有效简化了构建与迁移过程。此外，为了支持更多的异构加速单元，OpenVINO 的 runtime api 底层采用了插件式的开发架构，基于oneAPI 中的 MKL-DNN、oneDNN 等函数计算加速库，针对 AVX-512 等通用指令集进行优化，为不同的硬件执行单元分别实现了一套完整的高性能算子库，提升模型在推理运行时的整体性能表现。

YOLOv7 简介

官方版的 YOLOv7 相同体量下比 YOLOv5 精度更高，速度快120%（FPS），比 YOLOX 快180%（FPS），比 Dual-Swin-T 快1200%（FPS），比 ConvNext 快550%（FPS），比 SWIN-L快500%（FPS）。在5FPS 到160FPS 的范围内，无论是速度或是精度，YOLOv7 都超过了目前已知的检测器，并且在GPU V100 上进行测试，精度为56.8% AP的模型可达到30 FPS（batch=1）以上的检测速率，与此同时，这是目前唯一一款在如此高精度下仍能超过 30FPS 的检测器。

任务开发流程

我们先整体来看下 YOLOv7 的输入输出结构，首先对输入的图片 resize 为 640x640 大小，输入到 backbone 网络中，然后经 head 层网络输出三层不同 size 大小的 feature map，并输出预测结果，这里以 coco 数据集为例子，输出为 80 个类别，然后每个输出(x ,y, w, h, o) 即坐标位置和是否存在物体的置信度，3 是指的 anchor 数量，因此每一层的输出为 (80+5) x 3 = 255再乘上 feature map 的大小就是最终的输出了。整个开发流程可以分为数据处理模块定义、前处理任务、推理任务、后处理任务四部分组成。

图：YOLOv7官方预训练模型的输入输出结构

1. 数据处理模块

定义 Object 结构体用来存放模型的输出数据，包含 bounding box 信息，类别标签，以及是否存在物体和类别的累计置信度。

定义 class_names 向量，用于存放 coco 数据集的所有标签。

struct Object{    cv::Rect_ rect;    int label;    float prob;};
const std::vector class_names = {    "person", "bicycle", "car", "motorcycle", "airplane", "bus", "train", "truck", "boat", "traffic light",    "fire hydrant", "stop sign", "parking meter", "bench", "bird", "cat", "dog", "horse", "sheep", "cow",    "elephant", "bear", "zebra", "giraffe", "backpack", "umbrella", "handbag", "tie", "suitcase", "frisbee",    "skis", "snowboard", "sports ball", "kite", "baseball bat", "baseball glove", "skateboard", "surfboard",    "tennis racket", "bottle", "wine glass", "cup", "fork", "knife", "spoon", "bowl", "banana", "apple",    "sandwich", "orange", "broccoli", "carrot", "hot dog", "pizza", "donut", "cake", "chair", "couch",    "potted plant", "bed", "dining table", "toilet", "tv", "laptop", "mouse", "remote", "keyboard", "cell phone",    "microwave", "oven", "toaster", "sink", "refrigerator", "book", "clock", "vase", "scissors", "teddy bear",    "hair drier", "toothbrush"};

定义 letterbox 与 scale_box 模块，分别用于在图像前处理任务中为输入数据添加 letterbox，以及在后处理任务还原 letterbox 带来坐标位置变换。这里特别值得注意的是我们增加了一个 padd 向量，用于存放在添加 letterbox 过程中 letterbox 的 size 信息以及相较原始图片的缩放比例信息，该组数据会用于在后处理任务中还原删除 letterbox 以后的结果。

cv::Mat letterbox(cv::Mat &src, int h, int w, std::vector &padd){    // Resize and pad image while meeting stride-multiple constraints    int in_w = src.cols;    int in_h = src.rows;    int tar_w = w;    int tar_h = h;    float r = min(float(tar_h) / in_h, float(tar_w) / in_w);    int inside_w = round(in_w * r);    int inside_h = round(in_h * r);    int padd_w = tar_w - inside_w;    int padd_h = tar_h - inside_h;    cv::Mat resize_img;
    // resize    resize(src, resize_img, cv::Size(inside_w, inside_h));
    // divide padding into 2 sides    padd_w = padd_w / 2;    padd_h = padd_h / 2;    padd.push_back(padd_w);    padd.push_back(padd_h);
    // store the ratio    padd.push_back(r);    int top = int(round(padd_h - 0.1));    int bottom = int(round(padd_h + 0.1));    int left = int(round(padd_w - 0.1));    int right = int(round(padd_w + 0.1));
    // add border    copyMakeBorder(resize_img, resize_img, top, bottom, left, right, 0, cv::Scalar(114, 114, 114));    return resize_img;}
cv::Rect scale_box(cv::Rect box, std::vector &padd){       // remove the padding area    cv::Rect scaled_box;    scaled_box.x = box.x - padd[0];    scaled_box.y = box.y - padd[1];    scaled_box.width = box.width;    scaled_box.height = box.height;    return scaled_box;}

定义 generate_proposal 模块，该模块具体有以下几个功能：

根据定义的 anchors,在输入图像中生成各类 feature map 的先验框；

根据输出结果调整先验框位置和大小，并将其作为 bounding box 还原到输入图像的坐标系中；

过滤置信度较低的分类结果，获取类别结果。

static void generate_proposals(int stride, const float *feat, float prob_threshold, std::vector