音视频及家电
(文章来源:OFweek安防网)
在今年早些时候,一段关于法国音乐家Fran oise Hardy的YouTube视频在网上流传。视频中,台下的人问她,为何唐纳德·特朗普会让其新闻秘书Sean Spicer在就职典礼人数一事上撒谎。Hardy回答说,此事是极有争议的,Spicer先生给出了“多种事实”。
这一视频的内容很奇怪,尤其是Fran?oise Hardy女士本人。虽然她现在已经73岁了,视频中看起来却只有20岁,而且她说话的声音像极了特朗普的顾问Kellyanne Conway女士的声音。
实际上,这段视频是德国艺术家Mario Klingemann的杰作“Alternative Face v1.1”,通过用一个人的脸建模生成式对抗网络,生成新的面孔。这是基于Conway女士的一段NBC采访生成的假视频,原本是关于Conway女士一段声名狼藉的对话,却通过Hardy女士之口说了出来。Mario Klingemann使用不同的声音片段作为输入数据,基于Fran?oise Hardy女士的脸进行训练。
视频看起来有些摇晃,且像素也被调整过。其实通过视频软件来制作可能画面效果会更好,但是Klingemann没有使用编辑软件来完成视频,相反,他只花了几天时间在台式电脑上用一种机器学习算法——生成式对抗网络(GAN)来创建了一个剪辑视频,电脑被强制输入Hardy女士的音乐视频后,自动生成了Klingemann想要的声音片段,在这段假视频中放出的声音片段其实是不存在的,Hardy女士从未说过这些话。
Klingemann先生的实验让虚假视频走入大众视线,预示着未来可能会有一场关于真伪视频的战争。原本书面的信息可以轻易的伪造,图像和声音却难以伪造,因此图像和声音证据原是非常可信的,但目前GAN的存在可能会改变这一局面,它可能会让图像和声音变得也不那么可信了。
事实上音频更容易伪造。通常情况下,计算机通过连接大量语音短记录片段来创建一个句子,这也是Siri声音的生成原理。但这样的数字声音受限于它们记住的片段范围,因此数字声音只有在说到某些特定短语的时候才听起来真实。
而GAN 生成音频的工作方式则不同,它使用神经网络算法来学习音频源的统计属性,然后在任何其他的上下文中再现这些属性,以毫秒级而非秒级的片段建模。如果我们想要让特朗普或者其他任何一个公众人物说出指定的话,其实就是将对应人物的演讲材料作为输入,告诉算法你想要输出的语音是什么。在过去几年里,谷歌在英国的DeepMind团队,百度在硅谷的深度学习研究院和蒙特利尔研究院,都发表了从文字到语音的高性能算法。目前这些算法只有大型公司的计算能力才能实现,但这种情况终将改变。
相比音频,机器生成图像更难实现。 2014年,Ian Goodfellow推出了GANs,彼时他还是 Yoshua Bengio在MILA的学生。尽管深度学习允许机器能够轻易完成图像识别的任务,辨别不同种类的数据,比如机器能轻易分辨一张猫和一只狗的图片,但是想要机器能自动生成猫和狗的图片就没那么容易了,计算机很难通过数据库中的大量训练图像,自动生成有意义的图片。
Goodfellow转而想到了另一种方法实现图像生成:竞争。不再请求软件凭空生成有用的东西,而是提供了另一个软件作为原软件的对手来推动图像生成。对手会辨别原软件生成的图像,判断它们是否“真实”。通过试图愚弄对手,生成软件学会创造看起来真实的生成图像。对抗软件“了解”现实世界是什么样子,因此赋予了生成图片意义和界限。
目前,GANs可以根据一句语言的描述,生成小型的邮票大小的图像。当你告诉GANs,“这只鸟是白色的,有一些黑色头和翅膀,并有一个长长的橙色喙“,它会为你画出来。可能画出来的图像并不完美,但一眼看过去却很真实。
当时这样的算法效果并不出奇,但GAN的发展非常迅速。在过去五年中,由相似算法推动的照片分类软件错误率已从25%降低到百分之几。人们期望图像生成领域也能取得同样的进展。谷歌的机器学习艺术家麦克·泰卡已经通过训练GANs算法生成了人脸的图像,分辨率像素大小为768,这像素超过了以前同等研究实验像素的两倍。
Goodfellow现在在搜索巨头谷歌的内部AI研究院Google Brain工作,如果一定要估计这一算法实现时间的话,他认为,生成YouTube假视频有可能在三年内实现。其他人则认为可能需要更长时间。但是所有人都同意这只是时间问题,而不是能不能实现的问题。Goodfellow说道,“我们认为AI会改变我们所信赖的证据——图像和音频”。
(责任编辑:fqj)
全部0条评论
快来发表一下你的评论吧 !