数字视频稳定调查:概念、方法和挑战

描述

本文翻译自《ACM技术洞察》科学杂志上的一篇文章:《Survey on Digital Video Stabilization: Concepts, Methods, and Challenges》,原文链接如下:

https://dl.acm.org/doi/pdf/10.1145/3494525

开源技术


CSUR-IG是谁?

CSUR-IG是计算调研兴趣小组 Computing SURveys Interest Group的缩写。我们是ACM技术洞察研究团队。我们是来自4个地方的同学:

1名深圳大学大三学生

2名中原工学院研一学生

1名安阳工学院大三学生

1名南通科技学院大三学生

我们在OpenHarmony成长计划啃论文俱乐部里,与华为、软通动力、鸿湖万联等公司一起,学习和研究操作系统技术…


1. 简介

1.1 本文摘要

数字视频稳定是一项具有挑战性的任务,旨在通过平滑相机轨迹将可能不稳定的视频转换为令人愉快的视频。

稳定可以借助硬件(稳定器)的方式实现,也可以通过软件算法的方式实现。本文谈的是后者。

尽管在解决这一任务的文献中发现了各种作品,但它们的组织和分析尚未受到太多关注。在这项工作中,我们根据提议的分类法对视频稳定的文献进行了全面回顾。介绍了该问题的正式定义,以及物理术语的简要解释。我们还就这一活跃领域的主要挑战和未来趋势进行了全面讨论。

1.2 数字视频稳定的定义

数字视频稳定就是通过平滑相机轨迹将可能不稳定的视频转换为令人愉快的视频。视频可以表示为一系列照片(帧)。

开源技术

图中,真实世界裁剪(白色)产生的照片和视频(蓝色)的表示。左:以矩形表示的照片。中间和右侧:以音量表示的稳定和不稳定视频。

数字视频稳定就想解决不用设备(直接用手)的情况下,把视频拍得好看,很有商业价值。


2. 正式定义和分类

2.1 相机运动方法

开源技术

我拿着相机,可以前后左右走,举高举低(第一个图),我拍特别角度,拿着相机转(第二个图),合起来就是复杂运动(第三个图)。

2.2 数字视频稳定的一些方法

2.2.1 经典的方法(三步走):

数字视频稳定的典型过程涉及三个不同的步骤,如下图所示:(1) 摄像机运动估计,(2) 不需要的运动确定,以及 (3) 稳定视图渲染。

开源技术

2.2.2 基于深度学习的方法:

深度学习的方法提出了深度神经网络架构,以有监督或无监督的方式稳定视频。

开源技术


3. 主要挑战场景

3.1 相机的估计运动

拍摄的过程中,人会带着相机运动,拍摄的事物也会运动,组合起来就是表观运动,也就是拍出来的东西。相机的估计运动就是通过表观运动(拍出来的东西)估计出相机本身是怎么运动的。

相机运动估计技术地图,主要讲了估计出相机本身是怎么运动中2D(二维),3D(三维)和2.5D(混合方法)的一些处理方法,并且给出了相应的描述和优缺点比较:

开源技术

表 1. 对数字视频稳定中摄像机运动估计的进步做出贡献的一些主要工作总结

3.2 怎么确定不需要的运动

拍摄过程中因为不必要的抖动导致画质不好,这种运动需要确定,就是确定不需要的运动。

不需要的运动确认技术地图,主要讲了为了去除的不需要的运动部分以获得更平滑的路径中基于过滤的方法,基于插值的方法,基于优化的方法,并且给出了相应的描述和优缺点比较:

开源技术

表 2. 有助于推动数字视频稳定中的无用运动确定的一些主要工作总结

3.3 稳定视图渲染

我们要处理一些丢失或者模糊的帧,也就是帧的修复。

稳定渲染的技术地图,主要讲了渲染稳定的帧中中基于填充的方法和基于裁剪的方法,并且给出了相应的描述和优缺点比较:

开源技术

表 3. 推动数字视频稳定渲染新视图的一些主要工作总

4. 基于深度学习的方法

基于深度学习的视频稳定方法,大多数使用带有配对视频的数据集进行训练,其中每一对都有一个不稳定的和一个真实稳定的视频。在这种情况下,如下图所示,目标是找到一个网络,该网络从不稳定版本中预测帧,使其与稳定版本尽可能相似。

开源技术

图中,基于深度学习的方法中常用的方法。不稳定的帧和一些时间信息提供给深度网络,以在训练/推理阶段预测稳定/稳定的帧。

深度学习数字视频稳定技术地图,这种方法没有明确地估计相机运动,但他们使用的是表观运动。通常,不需要的运动的确定和移除是隐式完成的:网络学习预测类似于真实稳定视频的视频,以下就是给出论文技术的盘点:

开源技术

表 4. 基于深度神经网络执行数字视频稳定的方法总结

5. 结论

5.1 过去的回顾
这项工作对数字视频稳定文献中可用的方法进行了回顾。我们根据使用的方法对方法进行分类,无论是经典的还是基于深度学习的。经典方法分为三个主要阶段:(1)相机运动估计,(2)确定不需要的运动,以及(3)稳定帧的渲染。对于这些步骤中的每一个,我们定义并分类了这些方法。
5.2 本文结论
  • 一些实际应用可以受益于数字视频稳定及其开发所产生的知识。

  • 需要更好地定义使用这些方法的场景。

  • 与其计算机视觉领域类似,深度学习已成为近年来视频稳定的趋势。

  • 数字视频稳定文献中的关键点之一是还没有明确定义的评估指标。

<本文完>


写在最后


OpenHarmony 成长计划—“啃论文俱乐部”(以下简称“啃论文俱乐部”)是在 2022年 1 月 11 日的一次日常活动中诞生的。截至 3 月 31 日,啃论文俱乐部已有 87 名师生和企业导师参与,目前共有十二个技术方向并行探索,每个方向都有专业的技术老师带领同学们通过啃综述论文制定技术地图,按“降龙十八掌”的学习方法编排技术开发内容,并通过专业推广培养高校开发者成为软件技术学术级人才。


啃论文俱乐部的宗旨是希望同学们在开源活动中得到软件技术能力提升、得到技术写作能力提升、得到讲解技术能力提升。大学一年级新生〇门槛参与,已有俱乐部来自多所高校的大一同学写出高居榜首的技术文章。


如今,搜索“啃论文”,人们不禁想到、而且看到的都是我们——OpenHarmony 成长计划—“啃论文俱乐部”的产出。


开源技术


开源技术


开源技术



OpenHarmony开源与开发者成长计划—“啃论文俱乐部”学习资料合集


1)入门资料:啃论文可以有怎样的体验  

https://docs.qq.com/slide/DY0RXWElBTVlHaXhi?u=4e311e072cbf4f93968e09c44294987d


2)操作办法:怎么从啃论文到开源提交以及深度技术文章输出  https://docs.qq.com/slide/DY05kbGtsYVFmcUhU  


3)企业/学校/老师/学生为什么要参与 & 啃论文俱乐部的运营办法https://docs.qq.com/slide/DY2JkS2ZEb2FWckhq


 4)往期啃论文俱乐部同学分享会精彩回顾: 

同学分享会No1.成长计划啃论文分享会纪要(2022/02/18)  https://docs.qq.com/doc/DY2RZZmVNU2hTQlFY  

同学分享会No.2 成长计划啃论文分享会纪要(2022/03/11)  https://docs.qq.com/doc/DUkJ5c2NRd2FRZkhF  

同学们分享会No.3 成长计划啃论文分享会纪要(2022/03/25) 

https://docs.qq.com/doc/DUm5pUEF3ck1VcG92?u=4e311e072cbf4f93968e09c44294987d


现在,你是不是也热血沸腾,摩拳擦掌地准备加入这个俱乐部呢?当然欢迎啦!啃论文俱乐部向任何对开源技术感兴趣的大学生开发者敞开大门。


开源技术


扫码添加 OpenHarmony 高校小助手,加入“啃论文俱乐部”微信群


后续,我们会在服务中心公众号陆续分享一些 OpenHarmony 开源与开发者成长计划—“啃论文俱乐部”学习心得体会和总结资料。记得呼朋引伴来看哦。


开源技术

开源技术

开源技术

开源技术

开源技术

开源技术

开源技术

开源技术

开源技术


开源技术


开源技术


开源技术


开源技术


开源技术

开源技术


开源技术


开源技术


开源技术


开源技术


开源技术


开源技术


开源技术


开源技术


开源技术


开源技术


开源技术


开源技术


开源技术






原文标题:数字视频稳定调查:概念、方法和挑战

文章出处:【微信公众号:开源技术服务中心】欢迎添加关注!文章转载请注明出处。

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分