使用Google Cloud集成API实现视频智能检测识别

描述

首先介绍一下脉时云。脉时云主要从事谷歌云的出海业务,协助出海用户做视频和游戏,为用户提供解决方案和日常的技术支持,提供专业的咨询服务、迁移服务和运维服务。同时,我们也根据客户需求自研了产品账单系统,帮助客户使用GCP。

01 Cloud Video Intelligence API介绍

首先,介绍Cloud Video Intelligence API。

python

在GCP上不需要过多的配置,可以通过SDK,比如Python或Go,来调用API,实现对视频对象、地理位置和动作捕获的分析。

然后,可以实现帧级别、镜头级别和视频级别的视频元数据采集,其中,帧级别可以达到秒级。

同时,我们也支持流式视频和基于对象的事件触发,这意味着我们可以基于事件的触发方式根据云原生的服务构建出流式的数据分析。

此外,我们可以基于内容实现精彩片段、标签功能等,打造优质客户体验。

python

这个API可以实现的功能如图所示。首先,它可以识别镜头切换,当镜头从A对象转向B对象时,其可以识别出来。

然后,可以根据内容进行标签化处理、实现目标跟踪和Logo识别,目前可以识别两万种以上的Logo。

同时,还可以做到视频文字内容识别和音频转录,达到字幕识别的效果。

此外,还可以做到人脸检测与识别和人物识别,在日常生活中,这主要用于交通识别和小区出入的牌照识别。

最后,还可以做到露骨内容检测。

python

接下来具体介绍每个功能,首先是镜头切换识别。基于镜头切换识别功能,可以对整个视频、片段视频或帧级别的视频进行内容摘要方面的分析。

获得摘要后,可以基于摘要生成缩略图,或基于摘要判断视频内容情况。

python

其次,可以基于视频获取标签。图中展示的demo分析了动物世界中的场景,可以看到,获取的标签有动物世界、树、叶子、动物等。

同时,可以对特定的片段进行识别和分析。此外,可以选择不同的模式,比如整段视频或帧级别的视频。

python

接下来,介绍目标跟踪功能。图中的右下角有一个蚂蚱,可以使用目标跟踪功能识别该对象,然后打开对应的时间段进行标记,通过标签关联和识别框对视频进行识别。

python

Logo识别功能可以识别出常见的Logo,比如Google Maps。同时,可以基于识别的数据信息实现视频的标签化和数据的收集。

python

如图所示,可以识别视频中出现的文字。完成文本识别后,可以进行标签化处理。同时,可以进行关联操作,实现真实的影像识别。

python

音频转录功能基于谷歌的API,可以自动识别常见的语言,并将其转录为视频文字,基于此完成字幕要求。

python

露骨内容识别功能可以基于API对视频的前十帧进行分析,判断视频是否包含敏感内容。

同时,该功能也可对帧、视频流和视频片段进行分析,判断其是否包含敏感信息。

02 Video Intelligence API Beta 功能

接下来,介绍目前API预先发布的一些功能。

python

第一个功能是流式传输。首先,将预存的文件组合成一定大小的文件,以视频流的方式传给API,API会对其进行分析和标签化处理,还会检测镜头变化、创建元数据信息和跟踪对象。

同时,可以基于另一个API实现动态内容的跟踪与识别,比如在体育赛事中,识别运动员的进球动作等。

python

第二个功能是直播,可以对常见的直播的视频流,比如RTMP,进行实时流式分析和标签化检测。

同时,将内容放在对象存储或谷歌的BigQuery里,实现元数据的管理,并基于事件的方式实现视频内容的分析和识别。最后,根据标签和内容向客户推荐相关视频。






审核编辑:刘清

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分