一个多层机器学习程序的诞生

描述

想象一下你正在看一部恐怖电影:女主角在一个黑暗的地下室里,高度警惕。背景中播放着悬疑的音乐,而一些看不见的,邪恶的生物在阴影中爬行……然后——砰!打到了一个物体。

如果没有强烈但恰到好处的音效,这样的场景很难有那么吸引人和恐怖。通常,这些音效是由工作室里的Foley艺术家录制的,他们使用大量可供选择的物体来产生声音。录制玻璃破碎的声音可能涉及实际反复打碎玻璃,例如,直到声音与视频剪辑非常匹配。

据悉,研究人员已经开发了一款自动化程序,可以分析视频帧中的运动,并创建自己的人工声音效果来匹配场景。在一项调查中,大多数被调查者表示他们相信这些假音效是真的。该模型名为AutoFoley,具体介绍发表在了6月25日出版的IEEE Transactions on Multimedia上面。

“自20世纪30年代以来,在后期制作中使用Foley艺术添加音效一直是电影和电视配乐的一个复杂部分,”参与创作AutoFoley的德克萨斯大学教授Jeff Prevost解释道。“如果没有一个真实的Foley配乐的控制层,,电影看起来既空洞又遥远。然而,Foley声音合成的过程也由此为电影的创作增加了大量的时间和成本。”

Prevost和他的博士生Sanchita Ghose被自动Foley系统的想法所吸引,开始创建了一个多层机器学习程序。他们创建了两种不同的模型,可以在第一步中使用,包括识别视频中的动作并确定合适的声音。

第一个机器学习模型从快速移动动作片段的帧中提取图像特征(如颜色和运动),以确定合适的声音效果。

第二个模型来分析对象在不同帧中的时间关系。通过使用关系推理来比较不同时间段的不同帧,第二个模型可以预测视频中发生的动作。

在最后一步,合成声音以匹配其中一个模型预测的活动或运动。Prevost和Ghose使用AutoFoley为1000个短片创建声音,这些短片捕捉了许多常见的动作,比如下雨、骑马和滴答作响的时钟。

分析显示,毫不奇怪的是,AutoFoley最擅长于在不需要与视频完全一致的情况下(例如,倾盆大雨、噼啪作响的大火)发出声音。但是,当视觉场景包含随时间变化的随机动作(例如打字、雷雨)时,程序可能与视频不同步。

接下来,Prevost和Ghose调查了57名当地大学生,他们认为哪些电影片段包括了原声配乐。在评估第一个模型产生的声音时,73%的受访学生选择了合成的AutoFoley剪辑作为原始片段,而不是真正的原始声音片段。在评估第二个模型时,仍有66%的受访者选择了AutoFoley剪辑而不是原来的声音剪辑。

“我们的方法的一个局限性是需要分类的主题出现在整个视频帧序列中,”Prevost说,同时还指出AutoFoley目前依赖的Foley类别的数据集非常有限。不过,AutoFoley的专利仍处于早期阶段,但Prevost说这些限制将在未来的研究中得到解决。

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分