视频检索技术在有线电视监测系统中的应用

电子工程师 2019-02-05 466

音视频及家电

737人已加入

描述

关键词：监测系统 , 视频检索 , 有线电视

1 引言

全国有线广播电视监测网是基于国家广电骨干网和省级干线网而建设的大型监测网络系统；随着地面无线电视纳入其监测范围，使得监测规模越来越大被监测的频道和电视节目数越来越多。视频信息技术的发展导致多媒体数据库日益庞大，一些特殊应用需要快速地完成特定目标视频片断的检索查询，特别作为广播电视监测部门，更要面对与日俱增的广告、视频节目及特定内容的快速检索。在一个视频节目中，如何快速查找某段节目(或某几帧)是否存在、播放的起止时间等信息、传统的方法是靠人工将视频节目文件逐一播放，查找所要的内容，整个过程耗时费事，效率低，劳动强度大。因而人工检索方式无法满足多媒体信息快速检索需求，特别是对在存储的视频节目中寻找指定的视频片断这样的应用需求。因此，需要建立一套快速的智能视频检索系统．以提高有线电视监测数据统计、分析和报告的质量和效率。

2 视频检索技术简介

视频检索技术是世界各国学者研究的热点问题之一，如基于压缩域的视频检索、基于语义的视频检索以及动态特征的提取等。目前，国内外已研究出多个视频检索系统，如：IBM Almaden研究中心开发的QBIC(Query ByImage Content)系统，美国哥伦比亚大学电子工程系与电信研究中心图像和高级电视实验室共同研究的、一种在互联网上使用的"基于内容"的检索系统VisualSeek，清华大学开发的视频节目管理系统TV-FI(Tsinghua videoFind lt)等。

视频检索把图像检索、模式识别、图像数据库等技术成果结合了起来，会有广阔的发展前景。

视频检索是从大量的视频数据中找到所需的视频片断及自动统计出所需要的信息。用户提供的例子(模板)或特征描述，系统就能够自动地找到所需的视频片断点，即实现基于内容的视频检索。通常，一段视频可以划分为几个场景，每个场景包含一个或多个镜头，每个镜头又由一系列连续记录的图像帧组成。因此，原始视频可以按照由粗到细的顺序划分为几个层次结构：视频(video)、场景(scene)、镜头(shot)和图像帧(frame)。视频和图像帧是视频本身就具有的结构，而镜头和场景是人为分离出来的结构。镜头一般是由摄像机一次摄像的开始和结束的所有帧构成，表示一个物理概念。而场景是指一连串语义相关的镜头，一般发生在相同的时间和地点，出现相同的人物或事件，表示的是一个语义概念。通过视频解析技术提取出镜头和场景后，可以用一帧或几帧来表示它们，这样当检索需要视频资料时，就不用从头到尾地查找一段视频，而是通过关键帧的非线性浏览来快速定位查询的内容，同时这种方式也有助于我们快速理解一段原始视频的内容，以决定是否是需要的资料。

根据有线电视监测的应用需求．首先利用抽取关键帧的方法，将视频检索转化为图像检索，基于内容的图像检索理论和方法便可以很方便地应用于图像检索当中。基于内容的图像检索，是指通过对图像视觉特征和上下文联系的分析，提取出图像的内容特征作为图像索引来得到所需图像，然后通过视频片断的匹配定位出需要查找的视频片断的位置，为查询、下载、观看所用。

3 视频检索的关键技术

视频检索的关键技术主要有：图像特征提取、图像特征的相似性度量、关键帧提取、视频片断匹配和评价指标等。

(1)图像特征提取

图像特征提取是针对图像内容的底层物理特征进行提取．如颜色直方图、图像轮廓特征等。特征的表示方式有三种：数值信息、关系信息和文字信息。目前，多数系统采用的都是数值信息。

(2)图像特征的相似性度量

相似性度量在镜头检索上，早期的工作主要是从镜头中提取关键帧，把镜头检索转化为图像检索。例如，在通常情况下，图像的特征向量可看作是多维空间中的一点，因此，用特征空间中点与点之间的距离来代表它们的匹配程度。距离度量是一个比较常用的方法，还有相关计算、关联系数计算等。此外，目前研究的问题还在于怎样对视频中的时间信息充分进行利用。

相似性度量在片段检索上，把视频片段分为片段、帧两层考虑，片段的相似性利用组成帧的相似性来直接度量，缺点在于限制相似的片段必须遵守同样的时间顺序，这种基于每帧的比较，也使得检索速度比较慢。

(3)关键帧提取

关键帧是用于描述一个镜头的关键图像帧，它反映一个镜头的主要内容。关键帧的选取一方面必须能够反映镜头中的主要事件，因而描述应尽可能准确完全；另一方面，为便于管理，数据量应尽量小，且计算不宜太复杂。

关键帧的选取方法很多，比较经典的有帧平均法和直方图平均法。帧平均法是从镜头中取所有帧在某个位置上像素值的平均值，然后将镜头中该点位置的像素值最接近平均值的帧作为关键帧；直方图平均法则是将镜头中所有帧的统计直方图取平均，然后选择与该平均直方图最接近的帧作为关键帧。

(4)视频片断匹配

先找出视觉上相似的片段，再根据不同的因子计算相似片段的相似度，最后按照相似度的大小从高到低排列它们。这种方法不会造成相似片段的遗漏，同时又能根据不同的因子度量相似片段的相似度。已经有研究提出了最优匹配法、最大匹配法和动态规划算法等。

(5)评价指标

查准率和查全率是视频检索常用的两个评价指标，描述了检索结果的准确性。此外，检索效率也是一个重要的衡量指标。影响这些指标的因素有很多，例如源流文件质量、匹配度、服务器性能、检索镜头数等。

4 基于内容的图像检索常用算法

图像检索就是根据对图像内容的描述，在目标图像集合中找到具有指定特征或包含指定内容的图像。图像的内容可以分为两类：视觉内容和信息内容。视觉内容对应图像的物理表示，如颜色、形状、纹理等。信息内容对应图像的语义，如主题、人物、场景等。图像比对是图像检索的核心算法之一，即判断原图片与目标图片是否一致。常用的图像比对算法主要有直接比较法、颜色特征法、纹理特征法、形状特征法、以及压缩域的图像比对算法等。

(1)直接比较法

直接比较法就是将两帧图像的像素点的值直接进行比较，方法简单易行，但是效率低且鲁棒性能差。

(2)颜色特征法

颜色特征是图像最直观、最明显的特征，一般用直方图描述。直方图的横轴表示颜色等级，纵轴表示在某一个颜色等级上具有该颜色的像素在整幅图像中所占的比例。以直方图为特征的常用的匹配方法有：矢量距离法、直方图交叉法和直接差值法。

(3)纹理特征法

纹理是图像中一个重要而又难以描述的特性。很多图像在局部区域内可能呈现出不规则性，而在整体上却表现出某种规律性。习惯上把图像中这种局部不规则而整体有规律的特性称之为纹理。从人类的感知经验出发，纹理特征主要有粗糙性、方向性和对比度，这也是用于检索的主要特征。

(4)形状特征法

形状特征是图像目标的一个显著特征，很多查询可能并不针对图像的颜色，因为同一物体可能有各种不同的颜色，但其形状总是相似的。如检索某辆汽车的图像，汽车可以是红的、绿的等，但形状决不会与飞机外形相似。另外，对于图形来说，形状是它唯一重要的特征。从图像中提取的目标边缘称为轮廓。基于形状或轮廓的检索是基于内容检索的一个重要方面，它能使用户通过勾勒图像的形状或轮廓，从图像库中检索出形状相似的图像。

(5)压缩域的图像比对算法

基于压缩域的图像比对技术，实际上是把图像的压缩技术与比对技术融合在一起，能够在不解码(或不完全解码)的情况下抽取到图像可用于比对的信息特征。对于这种信息特征的提取，可以利用离散余弦变换DCT(Discrete CosineTransform)域的一些特征，主要包括颜色特征、轮廓特征和轮廓直方图等。基于DCT压缩域的图像比对算法，能够大大缩短检索用时，是现阶段视频检索的研究热点，但是实际应用还不够成熟，有待于进一步研究。

(6)基于模糊的块图像比对算法

考虑到有线电视信号的特殊性，针对监测网的信号特征提出了一种模糊的块图像比对算法。即将一帧图像的YUV彩色模型(Y代表亮度分量，U、V代表两个色差分量)分量分为固定大小的小块，然后将原图像帧与目标图像帧一小块为单位分别进行对比，统计相似个数，作为两幅图像的相似性度量。通过与颜色直方图法的比较，可以看出，在有线电视信号检索中，该算法能够增大比对算法的鲁棒性且提高检索速度。

5.1 系统功能

有线电视视频检索系统的主要功能包括：样本制作和管理、任务下发和管理、结果查询和系统管理等。

(1)样本制作和管理

样本制作和管理包括录像下载、源文件库、样本帧制作和样本帧库管理等模块。在样本制作时，支持MP4、WMV等多种视频格式；制作完成后还可根据用户需要进行分类管理，如广告类、电视剧类等。

(2)任务下发和管理

任务下发和管理包括单任务、多任务并发、特定内容任务下发和管理模块。用户可根据任务需要设定相应的匹配度。所谓匹配度，就是检索结果帧数与样本帧数的百分比值。因此，匹配度低．漏报少，但可能会产生误报；反之，漏报可能增加，误报减少。

(3)结果查询

结果查询包括检索结果查看和管理、结果下载和报表管理等模块。

(4)系统管理

系统管理包括用户管理、权限管理、设备管理、系统运行状态和基础信息管理等。

5.2 系统工作原理

系统工作原理如图1所示，分为中心系统、前端设备和传输网络三部分。用户通过WEB服务器下发检索任务至数据库服务器，调度服务器实时轮巡数据库，一旦发现新的检索任务，调度服务器自动提取任务通过广电专用网络下发到前端检索服务器；检索服务器收到检索任务后，同时向中心系统存储服务器和有线电视前端分别调取样本文件和目标文件进行比对，比对完成后，检索服务器将结果及下载录像路径通过调度服务器回传至数据库服务器，最终将结果回传到客户端。

5.3 图像比对原理

本系统采用的是基于模糊的块图像比对算法。

可以从底层分解和高层分解两部分来理解，底层分解包括视频解码、图像比对、检索结果分析和数据存储等算法；高层分解可将系统分为生成样本投影、解析样本投影空间和检索信息存储三部分。

首先从样本源流文件中抽取所需的样本帧，生成样本序列，将目标流文件进行视频解码，解码后逐帧与样本序列帧进行图像比对，将所有相似帧放入样本投影空间，再根据样本的其他信息(例如：时间戳等)进行有效性校验、片断统计和结果筛选，最终检索出目标视频片断。

视频检索技术引入到有线电视监测系统，建立了一种快速的智能视频检索手段。通过系统运行测试．对于普通新闻、广告、电视剧等类型的视频，可以检索出几乎全部的视频片断；对于一些特殊视频，也能够检索出大部分的视频片断，其检索准确度大于90％。单机单任务检索效率大于1：10，单机多任务检索效率大于1：20，与人工回放检索相比大大节省了时间，理论上系统可支持分布式检索前端大于1000个。

通过系统建设的实践，有以下几个问题是值得注意的：

(1)由于有线电视信号在传输过程中存在衰减，各个前端由于距离、设备等因素不同，对信号的衰减补偿产生的机械噪声也不同，导致不同前端的信号会有所差异。再者，有线电视信号的衰减是非线性的，很难找到一个合适的补偿算法使信号强弱都一样。因此会影响到检索结果的准确性。
(2)视频检索是针对已经存储的视频文件，在对信号进行采集、压缩和存储的过程中会产生部分损耗，也会影响检索结果的准确性。
(3)系统采用大型网络进行传输且带宽有限，因而采用系统分布式的检索模型和"短链接"通讯模式。所谓"短链接"，就是在没有检索任务时，中心系统与检索前端服务器问不保持通讯连接，一旦有检索任务时，则在两者间建立临时性的TCP通道连接，检索任务完成后，检索前端自动拆除该连接。

由于上述原因，给系统的架构和检索算法带来了很大困难，造成了检索准确度不能达到100％，因而，对于非常重要的检索任务，仍需人工辅助核实。

在电视监测领域中建立快速智能的视频检索方法和视频监测数据的快速处理机制，为安全播出和行业管理提供了又一种监测的重要应急手段。实际证明，虽然有线电视信号的特殊性与检索算法有限的实用性，使得查全率还未能达到100％，但是该视频检索系统为满足监测工作日益增长的要求提供了一种有效的解决方案，已经能够有效帮助监测工作人员完成大部分的检索任务，大大提高了检索效率。

打开APP阅读更多精彩内容