关于DeepRemater模型的内部架构

yingujun 2020-07-08 1131

人工智能

636人已加入

描述

凭借AI修复老北京影像火爆B站的Up主大谷兄，今天又来带我们玩穿越了！

这次是1929年的老北京，除了AI上色、补帧、扩大分辨率外，还百分百还原了时代原声，老北京的味儿太足了！

人头攒动，熙熙攘攘，有赚吆喝的、看热闹的、闲聊的，老北京集市好不热闹。

大鼓、笛子、四胡、三弦，手艺人的一曲《打新春》，有内味了。

精神小伙理发记

溢出屏幕的开心劲儿，看来发型很满意。在我们这年代都不用理，用不了几年就能天然形成［傲娇］

吃饭还能这么热闹吗？我们现在都是隔着两米！

惊现“地摊经济”

3min的珍贵影像资料，可谓真真切切地感受了老北京九十年前的生活状态。虽然看起来物质生活不是很富裕，但隔着屏幕都是感受到那时候人们的欢乐。准确的来说，这段影像记录的是1927-1929年的老北京，出自南卡罗莱纳大学影像库馆藏胶片。

另外，这段影像修复视频依然出自B站Up主大谷之手，此前他曾用AI修复过1920-1927年的一段老北京影像，在B站爆火，视频点击量超过了200万，还受到了央视新闻的报道。不过，从影像的修复效果过来看，显然这次在去噪和着色方面处理的更好，而且还是自带原声的影像资料。

这次的修复作品是与央视新闻联合发布的，视频上传不到30min，在B站就收获了30多万的播放量，弹幕更是爆屏。

AI修复是如何实现的？

据大谷介绍，这部修复作品采用了新的AI技术DeepRemaster。与此前相比，它在上色、补帧、分辨率方面都有更出色的表现。这项技术的研发者是日本建筑大学的Satoshi Iizuka和和早稻田大学的Edgar Simo-Serra。他们的论文还被计算机图形学顶会SIGG2019收录。

我们知道以前的影像资料一般都是黑白的，而且像素、质量比较低。如果修复的话，需要提高分辨率、去除噪声和增强对比度的处理。基于这些任务，作者中提出了一个DeepRemaster模型。

它基于时间卷积神经网络，在视频上训练注意力机制（Source-Reference），这种注意力机制可以处理任意数量的彩色图像，同时不需要对长视频进行分割，因此保持时间的一致性。经过定量分析表明，DeepRemaster的模型性能可以随着视频长度和彩色图像的增加而提高，远优于现有的修复模型。

DeepRemater模型的内部架构

在模型Input端输入黑白图像，经过时间卷积网络的预处理和Source-Reference注意力机制的深度训练后，可以结合任意数量的彩色图像来生成最终的色度信道。在这一过程中， Source-Reference注意力机制允许模型再给视频上色时，参考彩色图像（Reference Images）中的相似区域。

基于递归的卷积神经网络，在传播信息时，通常是逐帧传播，不能进行并行处理，并形成依赖关系。因此，在参考彩色图像时，图像会反复重新开始，这样时间上的相关性就会丢失。而基于Source-Reference注意力机制的卷积神经网络在处理任何帧时能够并行使用所有的参考信息。

修复方法比较

Zhang、Yu和Vondrick等人曾对世界经典电影和和Youtube视频进行AI修复试验，结果取得了不出的效果。作者为验证DeepMaster的修复性能，与之进行了对比。

首先是与Zhang、Yu的比较。作者从Youtube的300视频数据集中随机抽取了一段8M视频作为修复目标，其中所用到参考彩色图像，取自源视频，并每隔60帧截取一次。

噪声处理：从修复结果来看，当前的方法在去噪处理方面，显然优势明显。第一列为存在噪声瑕疵的原图像，前两种几乎没有对齐进行修复，第四列可以看到在高保真的状态下，噪声被处理的很好，与第四列真实图像几乎没有差异。

着色处理：图中第一列为原始图像，后三列为不同方法的处理着色处理结果，最后一列为参考彩色图形。可以看出第三列的颜色处理与第四列几乎无差异。因此，基于Source-Reference注意力机制的模型着色效果更好。

另外，作者将Zhang和Vondrick的修复方法结合，并进行了比较。上部图像为参考彩色图像，分别对第5、85、302帧的图像进行了修复，结果可以看出目前的方法在着色效果上更好。
责任编辑:pj

打开APP阅读更多精彩内容