GAN能伪造音视频文件，音视频技术大有可为

独爱72H 2020-04-21 1583

音视频及家电

745人已加入

描述

（文章来源：OFweek安防网）

在今年早些时候，一段关于法国音乐家Fran oise Hardy的YouTube视频在网上流传。视频中，台下的人问她，为何唐纳德·特朗普会让其新闻秘书Sean Spicer在就职典礼人数一事上撒谎。Hardy回答说，此事是极有争议的，Spicer先生给出了“多种事实”。

这一视频的内容很奇怪，尤其是Fran?oise Hardy女士本人。虽然她现在已经73岁了，视频中看起来却只有20岁，而且她说话的声音像极了特朗普的顾问Kellyanne Conway女士的声音。

实际上，这段视频是德国艺术家Mario Klingemann的杰作“Alternative Face v1.1”，通过用一个人的脸建模生成式对抗网络，生成新的面孔。这是基于Conway女士的一段NBC采访生成的假视频，原本是关于Conway女士一段声名狼藉的对话，却通过Hardy女士之口说了出来。Mario Klingemann使用不同的声音片段作为输入数据，基于Fran?oise Hardy女士的脸进行训练。

视频看起来有些摇晃，且像素也被调整过。其实通过视频软件来制作可能画面效果会更好，但是Klingemann没有使用编辑软件来完成视频，相反，他只花了几天时间在台式电脑上用一种机器学习算法——生成式对抗网络（GAN）来创建了一个剪辑视频，电脑被强制输入Hardy女士的音乐视频后，自动生成了Klingemann想要的声音片段，在这段假视频中放出的声音片段其实是不存在的，Hardy女士从未说过这些话。

Klingemann先生的实验让虚假视频走入大众视线，预示着未来可能会有一场关于真伪视频的战争。原本书面的信息可以轻易的伪造，图像和声音却难以伪造，因此图像和声音证据原是非常可信的，但目前GAN的存在可能会改变这一局面，它可能会让图像和声音变得也不那么可信了。

事实上音频更容易伪造。通常情况下，计算机通过连接大量语音短记录片段来创建一个句子，这也是Siri声音的生成原理。但这样的数字声音受限于它们记住的片段范围，因此数字声音只有在说到某些特定短语的时候才听起来真实。

而GAN 生成音频的工作方式则不同，它使用神经网络算法来学习音频源的统计属性，然后在任何其他的上下文中再现这些属性，以毫秒级而非秒级的片段建模。如果我们想要让特朗普或者其他任何一个公众人物说出指定的话，其实就是将对应人物的演讲材料作为输入，告诉算法你想要输出的语音是什么。在过去几年里，谷歌在英国的DeepMind团队，百度在硅谷的深度学习研究院和蒙特利尔研究院，都发表了从文字到语音的高性能算法。目前这些算法只有大型公司的计算能力才能实现，但这种情况终将改变。

相比音频，机器生成图像更难实现。 2014年，Ian Goodfellow推出了GANs，彼时他还是 Yoshua Bengio在MILA的学生。尽管深度学习允许机器能够轻易完成图像识别的任务，辨别不同种类的数据，比如机器能轻易分辨一张猫和一只狗的图片，但是想要机器能自动生成猫和狗的图片就没那么容易了，计算机很难通过数据库中的大量训练图像，自动生成有意义的图片。

Goodfellow转而想到了另一种方法实现图像生成：竞争。不再请求软件凭空生成有用的东西，而是提供了另一个软件作为原软件的对手来推动图像生成。对手会辨别原软件生成的图像，判断它们是否“真实”。通过试图愚弄对手，生成软件学会创造看起来真实的生成图像。对抗软件“了解”现实世界是什么样子，因此赋予了生成图片意义和界限。

目前，GANs可以根据一句语言的描述，生成小型的邮票大小的图像。当你告诉GANs，“这只鸟是白色的，有一些黑色头和翅膀，并有一个长长的橙色喙“，它会为你画出来。可能画出来的图像并不完美，但一眼看过去却很真实。

当时这样的算法效果并不出奇，但GAN的发展非常迅速。在过去五年中，由相似算法推动的照片分类软件错误率已从25％降低到百分之几。人们期望图像生成领域也能取得同样的进展。谷歌的机器学习艺术家麦克·泰卡已经通过训练GANs算法生成了人脸的图像，分辨率像素大小为768，这像素超过了以前同等研究实验像素的两倍。

Goodfellow现在在搜索巨头谷歌的内部AI研究院Google Brain工作，如果一定要估计这一算法实现时间的话，他认为，生成YouTube假视频有可能在三年内实现。其他人则认为可能需要更长时间。但是所有人都同意这只是时间问题，而不是能不能实现的问题。Goodfellow说道，“我们认为AI会改变我们所信赖的证据——图像和音频”。
（责任编辑：fqj）

打开APP阅读更多精彩内容