基于FPGA的实时视频处理平台方案讨论及设计

电子工程师 2017-11-22 4032

FPGA/ASIC技术

211人已加入

描述

　　为了能够实时地采集、处理、显示视频，设计并实现了一种基于双ＰｏｗｅｒＰＣ硬核架构的实时视频处理平台；用硬件实现视频的预处理算法，并以用户ＩＰ核的形式添加到硬件系统中，上层的视频处理软件程序则直接从存储器中调用预处理后的图像数据；重点介绍了在ＦＰＧＡ上构建双ＰｏｗｅｒＰＣ硬核架构的硬件系统；采用乒乓控制算法缓存一行图像数据；用ＤＭＡ的方式将图像数据保存在存储器中；以边缘检测作为视频预处理算法的一个实例，在平台上实现，实验结果表明，用本平台实现仅需４０ｍｓ；本平台能够实时处理视频，具有较高的实用价值。

　　０　引言

　　目前，视频处理平台大多使用ＤＳＰ芯片进行图像处理。实时视频处理对系统性能提出了极高的要求，几乎最简单的功能也超出了单个通用ＤＳＰ芯片的处理能力。一旦达到极限，通常只有增加额外的ＤＳＰ芯片。２０１０年郭春辉提出一种基于多条带、多ＤＳＰ的并行视频处理系统［１］。这种采用多处理器并行处理的方法虽然提高了处理速度，但增加了系统开发的复杂度，例如任务的合理分配，多处理器之间的通信、互斥等。当然，也增加了系统的功耗。ＤＳＰ在性能方面的局限导致开发更为专用的芯片，如多媒体处理器，来克服这些问题。然而，事实证明这些器件除了在范围极窄的一些应用中，都有不灵活的缺点，同时还存在性能瓶颈。基于处理器的方案，其局限在高分辨率视频处理系统，如ＨＤＴＶ和医疗图像系统中特别明显。基本上，这种方案受限于多少个周期可以完成一次加法和乘法运算。

　　采用ＦＰＧＡ进行视频处理使设计人员可以利用并行处理技术实现视频信号处理算法。设计人员还可以在设计面积和速度之间进行折衷，并且可以用比ＤＳＰ低得多的时钟频率完成给定的功能。更重要的是它的灵活性，能满足固件升级及以后多媒体标准改进的要求。因此，本文提出一种基于ＦＰＧＡ可重构的软硬件协同设计的实时视频处理平台。平台使用常规的ＦＰＧＡ开发工具，提供一个适应强、模块化的架构，同时满足高性能、低功耗的要求。

　　１　总体设计

　　视频是一种连续变化的图像信息。一般地，视频处理大致可以分为底层处理（即预处理）和上层处理：底层处理的数据量大，算法实现比较简单，且存在较大的并行性；上层处理的算法复杂，而数据量小。对于视频处理的实现手段，在视频的预处理阶段，采用软件实现是一个很耗时的过程，但采用硬件实现就可以对大量的视频数据进行并行处理，能够极大地提高视频处理的速度；而在视频上层处理阶段，采用软件实现则具有较高的性价比。

　　例如，Ｖｉｓｉｃｏｍ公司发现对于中值滤波，ＤＳＰ需要６７个周期完成该算法。采用ＦＰＧＡ只需要运行在２５ＭＨｚ的时钟频率，因为ＦＰＧＡ可并行实现该功能。而ＤＳＰ要达到同样的性能则需要运行在超过１．５ＧＨｚ的时钟频率。在这一特定的应用中，ＦＰＧＡ的方案比一个１００ＭＨｚ时钟频率的ＤＳＰ的要强大约１７倍［２］。

　　范围广泛的实时图像和视频预处理功能都适合采用ＦＰＧＡ硬件实现，它们包括实时：边缘检测、缩放、色彩和色差校正、阴影增强、图像放置、直方图功能、锐化、中值过滤、模糊分析等。

　　本设计的实时视频处理平台采用Ｘｉｌｉｎｘ公司大学计划ＸＵＰ　Ｖｉｒｔｅｘ－ＩＩ　Ｐｒｏ开发板。它包括一个Ｖｉｒｔｅｘ－ＩＩ　ＰｒｏＸＣ２ＶＰ３０ＦＰＧＡ，其内部有３０８１６个逻辑单元，１３６个１８位乘法器，２４４８ｋＢ块ＲＡＭ，两个ＰｏｗｅｒＰＣ　４０５处理器。还包括一根ＤＤＲ　ＳＤＲＡＭ　ＤＩＭＭ插槽，可以支持高达２Ｇｂｙｔｅｓ的ＲＡＭ，若干扩展接口和一个ＸＳＧＡ视频接口。外接一块视频解码板（支持ＩＴＵ－Ｒ　ＢＴ．６５６视频标准），该开发板就能完成视频的采集、处理和显示。实时视频处理平台总体框图如图１所示。

　　视频采集部分包括行解码、４：２：２转４：４：４、行缓存和缓存控制逻辑模块、分配器、选择器模块等。测试部分包括ＹＣｂＣｒ转ＲＧＢ、视频时序信号发生模块等。这两部分是Ｘｉｌｉｎｘ公司提供的验证设计，故本文只对其做简单介绍。预处理部分包括视频预处理逻辑模块，下文将重点介绍该模块。这三部分构成用户逻辑。用户逻辑和ＰＬＢ　ＩＰ接口构成一个完整的基于ＰＬＢ总线的用户ＩＰ核，可以方便地将其添加到视频处理平台的硬件系统中。

　　对于视频信号源，可以是有线电视、ＤＶＤ、ＶＣＲ、ＣＣＤ等。在对模拟视频信号进行数字化处理时，先通过视频解码板把它转换成符合ＩＴＵ－Ｒ　ＢＴ．６５６标准的数字视频流。在ＦＰＧＡ芯片内，对该数字视频流进行采集及预处理。经处理后的视频流，一方面通过ＹＣｂＣｒ转ＲＧＢ模块、行缓存、及视频ＤＡＣ转换成ＲＧＢ信号，供显示器显示，作为测试用；另一方面，该视频流还以ＤＭＡ的方式通过ＰＬＢ总线保存到片外的ＤＤＲ　ＳＤＲＡＭ中。这样，在ＰｏｗｅｒＰＣ处理器上运行的应用程序就可以直接从ＤＤＲ　ＳＤＲＡＭ中调用已经过视频预处理模块处理的视频数据，完成上层的视频处理算法。

　　１．１　双ＰｏｗｅｒＰＣ硬核结构

　　ＩＢＭ　ＰｏｗｅｒＰＣ　４０５处理器核是３２位的ＲＩＳＣ　ＣＰＵ硬核，它嵌入到ＦＰＧＡ内用于实现高性能嵌入式应用。它包括标量５级流水线、独立指令和数据缓存、１个ＪＴＡＧ端口、迹线ＦＩＦＯ（ｔｒａｃｅ　ＦＩＦＯ）、多个定时器和１个内存管理单元。它最高可以工作在３００ＭＨｚ频率下，具有６００＋ＤＭＩＰＳ的运行速度。

　　使用Ｘｉｌｉｎｘ公司提供的嵌入式开发套件ＥＤＫ，在ＦＰＧＡ上构建视频处理平台的硬件系统，包括双ＰｏｗｅＰＣ处理器、ＰＬＢ总线、ＤＤＲ　ＳＤＲＡＭ存储器、互斥体、邮箱、用户ＩＰ核（包括视频预处理逻辑模块）和其它外设。

　　实现ＰｏｗｅｒＰＣ双核架构的难点是数据的并行处理和共享存储器的访问竞争。因此，在硬件系统中添加互斥体，它包括数量可配置的互斥信号量，每个互斥信号量包括一个３２ｂｉｔ用户配置寄存器（存储专用数据），用来解决多核环境下访问共享存储器。在多核环境下，一个处理器可以用邮箱与另一个处理器通信，这样就能实现视频处理算法的并行执行。

　　１．２　行解码模块

　　经视频解码板转换后的数字视频流，符合ＩＴＵ－ＲＢＴ．６５６标准，通过９根信号线（１根２７ＭＨｚ时钟线ＬＬＣ＿ＣＬＯＣＫ和８根ＹＣｂＣｒ视频数据线）接入ＦＰＧＡ。行解码模块完成从数字视频流中提取所需的视频信息，包括场标识位Ｆ（处于奇场或偶场）、场状态标识位Ｖ（处于场正程阶段或场消隐阶段）、行状态标识位Ｈ（有效视频起始信号或有效视频结束信号），以及ＹＣｂＣｒ视频数据。视频数据是以２７Ｍ字／秒的速率传输的，其顺序是：Ｃｂ０，Ｙ０，Ｃｒ０，Ｙ１，Ｃｂ２，Ｙ２，Ｃｒ２，…… 其中，Ｃｂ０，Ｙ０，Ｃｒ０这３个字指的是同一像素的亮度和色差信号采样，后面的Ｙ１对应于下一个像素的亮度采样。

　　１．３　４：２：２转４：４：４模块

　　为了数据传输和存储的需要，ＩＴＵ－Ｒ　ＢＴ．６５６标准采用ＹＣｂＣｒ４：２：２采样格式，就是每采样４个亮度信号，只采样２对色差信号，因此在对视频数据进行处理之前，必须重建ＹＣｂＣｒ４：２：２采样中丢失的Ｃｂ、Ｃｒ色差信号。在该模块中，采用复制前一像素的Ｃｂ、Ｃｒ色差信号的方法，把ＹＣｂＣｒ４：２：２采样格式的视频流转换成ＹＣｂＣｒ４：４：４采样格式的视频流。因此，模块输出的数字视频流的频率为输入Ｙ信号的频率，即像素时钟频率，等于１３．５ＭＨｚ。

　　１．４　视频预处理逻辑模块

　　边缘检测是图像处理中的重要内容。边缘在边界检测、图像分割、模式识别、机器视觉等中有很重要的作用。因此，本设计以边缘检测作为视频预处理算法的一个实例。在边缘检测算法中，采用ＬＯＧ算子，它通过求二阶导数中的零交叉点来检测边缘，检测出的边缘宽度较细，有利于边缘的精确定位。ＬＯＧ算子使用的５×５模板为：

　　当然，工程师可以根据不同的需要，在该模块中用硬件逻辑实现不同的视频预处理算法，例如：缩放、色彩和色差校正、中值过滤等。

　　１．５　ＹＣｂＣｒ转ＲＧＢ模块

　　ＹＣｂＣｒ和ＲＧＢ是视频图像中常用的两种色彩空间，用ＹＣｂＣｒ色彩空间表示颜色易于实现压缩和方便传输，但现有显示设备大多采用ＲＧＢ信号驱动，因此，对于视频的显示，需要将ＹＣｂＣｒ信号转换为ＲＧＢ信号。ＹＣｂＣｒ转ＲＧＢ的公式：

　　式中，Ｙ、Ｃｂ、Ｃｒ信号值的范围是１６～２３５，均为８比特。考虑到兼容性，在设计中，Ｙ、Ｃｂ、Ｃｒ信号均采用１０比特位。结合ＦＰＧＡ器件的特点，及在用硬件逻辑实现浮点运算时，满足精度和浮点的要求，将以上公式改为：

　　在ＲＧＢ信号输出时，取其高８位即可。对于公式中的运算“１／２５６”，在代码设计时采用截数的方法实现。

　　１．６　行缓存

　　本设计采集的视频分辨率为７２０×５７６，采用２４位色（Ｒ、Ｇ、Ｂ各为８位），因此保存一帧图像需要７２０×５７６×２４＝９．４９２１８７５Ｍｂｉｔ的存储空间。可见，一帧图像数据所需的存储空间是比较大的，不适合直接保存在ＦＰＧＡ片内的块ＲＡＭ中。有几种方案可以选择，一是采用双口ＲＡＭ作为帧缓存，但这种容量的双口ＲＡＭ芯片较贵，势必增加成本；二是采用两片ＤＤＲ　ＳＤＲＡＭ，通过乒乓控制算法构成双端口的帧缓存，这种方法需另外制板，增加了设计的复杂度；三是在ＦＰＧＡ片内构建两个行缓存，并采用乒乓控制算法，每次只存储一行视频数据，然后通过ＤＭＡ的方式把５７６行视频数据逐一存储到ＤＤＲ　ＳＤＲＡＭ中。这样，仅需两行视频数据的存储空间，即７２０×２×２４＝３３．７５ｋｂｉｔ，大幅减少系统对存储资源的需求，一方面节约了成本，另一方面也充分利用ＦＰＧＡ片内的块ＲＡＭ。图２显示了采用乒乓控制算法控制两个行缓存读写视频数据的过程。

　　对于分辨率为７２０×５７６的视频图像，第０行视频数据首先写入行缓存０，此时，行缓存０处于写状态，行缓存１处于读状态。当向行缓存０写完第０行最后一个像素时，产生Ｈｏ＿４４４信号。行缓存０随之变为读状态，行缓存１变为写状态。接着，第１行视频数据开始写入行缓存１，同时，ＤＡＣ从行缓存０读出第０行视频数据。当向行缓存１写完第１行最后一个像素时，再次产生Ｈｏ＿４４４信号。行缓存０随之变为写状态，行缓存１变为读状态。然后，第２行视频数据开始写入行缓存０，ＤＡＣ同时从行缓存１读出第１行视频数据。如此循环反复。因此，从整个控制模块两端看数据，输入数据流和输出数据流是连续不断的，没有任何停顿，完成数据的无缝缓冲与处理［３］。

　　１．７　ＰＬＢ　ＩＰ接口

　　ＰＬＢ　ＩＰ接口用于在ＰＬＢ总线及用户ＩＰ核之间提供一个快速实现且高度适应的接口。通过使用ＶＨＤＬ　ｇｅｎｅｒｉｃｓ语句，根据用户需求提供多样的服务及可选的特性。在本设计中，选择了中断、软件访问寄存器和ＤＭＡ等特性。

　　视频数据自动写入行缓存，当写完一行视频数据后，由用户逻辑产生中断信号，同时视频数据写入另一个行缓存，接着ＣＰＵ响应中断，并在中断服务程序中配置ＤＭＡ寄存器，如源地址、目的地址、传输长度等参数，接着启动ＤＭＡ。然后，ＤＭＡ申请得到ＰＬＢ总线控制权，自动从行缓存中读出视频数据，并通过ＰＬＢ总线存储到ＤＤＲ　ＳＤＲＡＭ，这样循环反复，就在ＤＤＲ　ＳＤＲＡＭ中得到一帧完整的经过预处理后的视频数据。这样，在ＰｏｗｅｒＰＣ处理器上运行的上层视频处理程序就可以直接从ＤＤＲ　ＳＤＲＡＭ中调用这些数据。

　　２　实验结果

　　通过示波器测量输出的像素时钟信号（ＰＩＸＥＬ＿ＣＬＯＣＫ信号，该信号连接到视频ＤＡＣ），得到频率瞬态值为２７．０３ＭＨｚ，根据ＩＴＵ－Ｒ　ＢＴ．６５６标准，１行视频流包括１７２８个字，一帧图像包含两场，共６２５行，则输出一帧图像所需时间为

　　，即ＦＰＧＡ对一帧图像进行边缘检测的时间。注意到本设计所用的模拟摄像头为ＰＡＬ制式，也是４０ｍｓ／帧图像，所以，证明本设计实现了实时处理视频。另外，视频信号的测量必须注意终端匹配的问题［４］。

　　３　结论

　　本文提出一种高性能的实时视频处理平台，并在Ｖｉｒｔｅｘ－ＩＩ　Ｐｒｏ　ＸＣ２ＶＰ３０ＦＰＧＡ上实现。相对于别的以硬件逻辑的形式实现图像处理算法［５－６］，该平台采用双ＰｏｗｅｒＰＣ硬核架构，以用户ＩＰ核的形式，为工程师在片上系统中实现各种视频处理算法提供了最大的灵活性。实验结果证明该平台能够实时处理视频，具有较高的实用价值，将广泛应用于消费类电子、视频监控、远程医疗和视频会议等领域。

打开APP阅读更多精彩内容

基于FPGA的实时视频处理平台方案讨论及设计

描述

０ 引言

１ 总体设计

２ 实验结果

３ 结论

　　０　引言

　　１　总体设计

　　２　实验结果

　　３　结论