用于多媒体解决方案的嵌入式视频处理器内核的软件基础架构

星星科技指导员 2022-10-18 2021

描述

　　借助物联网、机器学习和人工智能等新时代技术，公司正在通过以创新的方式融合物理现实和数字信息来重新构想和创建智能多媒体应用程序。多媒体解决方案涉及音频/视频编解码器，图像/音频/视频处理，边缘/云应用程序，以及在某些情况下的AR / VR。本博客将讨论任何多媒体解决方案中嵌入式视频处理器内核所涉及的软件基础架构。

　　该视频处理器是基于 RTL 的强化 IP 模块，可用于领先的 FPGA 板。借助此嵌入式内核，用户可以本机支持视频会议、视频流和基于 ML 的图像识别和面部识别应用，具有低延迟和高资源效率。但是，在部署视频处理器之前，可能会出现与操作系统支持、H.264/265 处理、驱动程序开发等相关的软件级问题。

　　让我们从视频处理器的概述开始，看看如何为半导体公司解决这些问题，使最终用户能够获得其产品优势。

　　嵌入式视频处理器内核

　　视频处理器是一种多组件解决方案，由视频处理引擎本身、DDR4 块和同步块组成。这些组件共同致力于支持高达 4k UHD （3840x2160p60）分辨率的 H.264/.265 编码和解码，对于此 FPGA 器件系列的最高速度等级，支持高达 4096x2160p60 的速率。支持的级别和配置文件包括最高 L5.1 高等级（HEVC）和 L5.2（AVC）。这三款产品都是基于RTL的嵌入式IP产品，部署在目标FPGA器件系列的可编程逻辑结构中，并经过优化/“强化”，以实现最高的资源效率和性能。

　　视频处理器引擎能够同时对多达 32 个视频流进行编码和解码。这是通过在所有预期通道上拆分2160p60带宽来实现的，支持480p30分辨率的视频流。支持高达 960Mb/s 的位流（L5.2 2160p60 高 4：2：2 配置文件（CAVLC）和高达 533Mb/s 的位流的 H.265 解码 L5.1 2160p60 主 4：2：2 10b 内部配置文件（CABAC）。

　　视频处理器引擎中还内置了显著的多功能性。速率控制选项包括 CBR、VBR 和常量 QP。在较低的帧速率下支持比 2160p60 更高的分辨率。该引擎可以处理 8b 和 10b 颜色深度以及 4：0：0、4：2：0 和 4：2：2 的 YCbCr 色度格式。

　　微架构包括单独的编码器和解码器部分，每个部分都由嵌入式 32b 可合成 MCU 管理，该 MCU 通过单个 32b AXI-4 Lite I/F 从属于主机 APU。每个 MCU 都有其 L1 指令和数据缓存，由专用的 32b AXI-4 主站提供支持。使用系统存储器的数据传输通过 4 通道 128b AXI-4 主 I/F 进行，该 I/F 在编码器和解码器之间分配。还有一个嵌入式AXI性能监视器，可直接测量总线事务和延迟，无需为每个MCU锁定固件之外再增加软件开销。

　　DDR4 模块是内存控制器和 PHY 的组合。控制器部分使用 SDRAM 优化 R/W 事务，而 PHY 执行串行和时钟管理任务。还有其他支持模块，可通过系统内存提供初始化和校准。5 个 AXI 端口和 1 个 64b SODIMM 端口提供高达 2677 MT/s 的性能。

　　第三个模块同步视频处理器引擎编码器和 DMA 之间的数据事务。它可以缓冲多达 256 个 AXI 事务，并确保低延迟性能。

　　该公司的集成开发环境（IDE）用于根据比特流的数量、所选的编解码器和所需的配置文件来确定给定应用程序所需的视频处理器内核数以及编码或解码缓冲区的配置。通过工具链，用户可以选择AVC或HEVC编解码器，I / B / P帧编码，分辨率和级别，每秒帧数颜色格式和深度，内存使用情况以及压缩/解压缩操作。IDE 还提供了带宽要求和功耗的估计值。

　　嵌入式软件支持

　　嵌入式软件开发支持任何硬件进入视频处理可分为以下一般类别：

　　视频编解码器验证和功能测试

　　Linux 支持，包括内核开发、驱动程序开发和应用程序支持

　　工具 & 框架开发

　　　　参考设计开发和部署

　　根据需要使用开源组织并向其提供捐助

　　在视频处理器上对 AVC 和 HEVC 编解码器进行广泛的验证。它必须以 3840x2160p60 的性能级别执行，以便在裸机和支持 Linux 的环境中进行编码和解码。从原型设计到全面生产，低延迟性能也得到了验证。

　　Linux的工作重点是多媒体框架和级别来自定义内核和驱动程序。这包括 v4l2 子系统、DRM 框架和同步块的驱动程序，以确保低延迟性能。

　　编解码器和 Linux 项目代表客户有效地开发各种参考设计。用于编码和解码的边缘设计，从低延迟视频会议到32通道视频流，基于感兴趣区域的编码和ML人脸检测的发展，所有这些都可以通过使用经过仔细考虑的开源工具，框架和功能来实现。在下面找到这些产品的摘要：

　　GStreamer – 一个开源的多媒体组件多操作系统库，可以按照面向对象的设计方法和插件架构进行管道方式组装，用于多媒体播放、编辑、录制和流式传输。它支持多媒体应用程序的快速构建，并在GNU LGPL许可证下提供。GStreamer产品还包括各种非常有用的工具，包括gst启动（用于构建和运行GStreamer管道）和gsttrace（一种基本的示踪剂工具）。

　　StreamEyeー一个开源工具，提供数据和图形显示，用于深入分析视频流。

　　Gstshark – 作为Ridgerun的开源项目提供，该工具为GStreamer多媒体应用程序构建的分析和调试提供了基准测试和跟踪功能。

　　FFmpeg 和 FFprobe – 都是 FFmpeg 开源项目的一部分，它们是面向多媒体软件开发人员的硬件无关的多操作系统工具。FFmpeg允许用户在多种格式之间转换多媒体文件，更改采样率并缩放视频。FFprobe是多媒体流分析的基本工具。

　　OpenMAX – 可通过 Khronos 集团获得，这是一个 API 和信号处理函数库，允许开发人员使多媒体堆栈跨硬件平台可移植。

　　Yocto – Linux 基金会的开源协作，用于创建工具（包括 SDK 和 BSP）和支持功能，以便为嵌入式和物联网应用开发 Linux 自定义实现。社区及其 Linux 版本控制与硬件无关。

　　Libdrm - 一组用于支持 DRM 的开源低级库。直接渲染管理器是一个 Linux 内核，用于代表用户程序管理基于 GPU 的视频硬件。它通过命令队列以仲裁模式管理程序请求，并管理硬件子系统资源，特别是内存。库包括用于支持英特尔、AMD 和英伟达 GPU 的函数。Libdrm 包括用于测试 DRM 显示驱动程序的模式测试等工具。

　　媒体 ctl – 一个广泛使用的开源工具，用于在 Linux v4l2 层中配置媒体控制器管道。

　　PYUV播放器ー另一个广泛使用的开源工具，允许用户播放未压缩的视频流。

　　大胆 - 一个免费的多操作系统音频编辑器。

　　上述工具/框架有助于在视频处理、流媒体和会议下设计高效、优质的多媒体解决方案。

　　审核编辑：郭婷

打开APP阅读更多精彩内容