介绍新型深度CNN模型——NIMA 它能判断出哪张图片最好看

zhKF_jqr_AI 2017-12-29 8228

电子说

1.2w人已加入

描述

谷歌今日发文介绍新型深度CNN模型——NIMA（Neural Image Assessment），它能以接近人类的水平判断出哪张图片最好看。

图像质量和美学的量化一直是图像处理和计算机视觉长期存在的问题。技术质量评估测量的是图像在像素级别的损坏，例如噪声、模糊、人为压缩等等，而对艺术的评估是为了捕捉图像中的情感和美丽在语义级别的特征。最近，用带有标记的数据训练的深度卷积神经网络（CNNs）已被用于解决特殊图像（例如景观）图像质量的主观属性。然而，这些方法通常简单地将图像分为低质量和高质量的两类，范围有些狭窄。为了得到更准确的图像质量预测，我们提出的方法可以得不出同的预测评级，更接近于真实的评级，更适用于一般图像。

在NIMA：Neural Image Assessment这篇论文中，我们介绍了一个深度卷积神经网络，通过训练，它可以判断哪些是用户认为技术精湛的图片（technically），哪些是有吸引力的图片（aesthetically）。正是有了最先进的能够识别物体的深度神经网络，NIMA才能在此基础上理解更多类别的物体，不论有什么变化。我们提出的网络不仅能给图像打一个靠谱的分数、接近人类的感知水准，同时还能用于各种需要大量劳动力和主观任务中，例如智能照片编辑、优化视觉质量，或者在pipeline中发现视觉错误。

背景

一般来说，图像质量评估可分为全参考和无参考两种方法。如果作为参考的理想图片可用，则就会使用诸如PSNR、SSIM等衡量图像质量的尺度。当参考图像不可用时，无参考方法就会依靠统计模型来预测图像质量。这两种方法的主要目标是预测一个与人类感知十分相近的质量分数。在利用深度卷积神经网络对图像质量进行评估时，需要通过在与对象分类器相关的数据集上进行训练（例如ImageNet），以初始化权重。然后对注释数据进行微调，以进行感知质量评估任务。

NIMA

通常判断一幅图像是否有吸引力是将其分成高低两种质量。这忽略了一个事实，即训练数据中的每个图像都与人类评分的直方图相关联，而非简单的二分类。人类评价直方图是评价图像整体质量的指标，也是所有打分者的平均数。而在我们的新方法中，NIMA模型不是简单地将图像分为高或低质量，或者进行回归得到平均分，而是对任意给定的图像产出评级分布——分数从1到10，NIMA计算出各个分数的可能性。这也与训练数据的来源相一致，并且当与其他方法对比时，我们的方法更胜一筹。

接着，就可以使用NIMA的向量分数的各种功能按照吸引力排列图像了。下面展示了利用NIMA排名的图片，他们都来自AVA数据集。在测试中，AVA中的每张图片都由200人共同评分，训练结束后，NIMA对这些图片的美感排名与人类评分员的平均分数非常接近。我们发现NIMA在其他数据集上表现同样很出色，对图像质量的预测和人类接近。

AVA中带有“风景”标签的图片排名。括号中是人类打分，括号外是NIMA的预测分数

NIMA的分数也可以比较经过扭曲的图片与原图的质量差别，以下是TID2013测试集的一部分，其中包含各种类型和级别的图像失真。

图像感知增强（Perceptual Image Enhancement）

正如我们在另一篇论文中所提到的，质量和吸引力分数也可以用来调整图像增强operators。换句话说，将NIMA分数最大化作为损失函数的一部分，能够提升图像增强的感知质量。下图中的例子表明，NIMA可以作为训练损失来调整色调增强算法。我们发现对美感的基准评分可以通过NIMA的评分指导的对比调整来改善。因此，我们的模型能够引导一个深度卷积神经网络滤波器，以找到参数中接近最佳设置的位置，例如亮度、高光和阴影。

用CNN和NIMA改变原图的色调和对比度

展望未来

NIMA的结果表明，基于机器学习的质量评估模型可能用途非常广泛。比如，我们可以让用户很轻易地找出最好的照片，甚至实现在用户拍照时进行实时反馈。在后期处理上，该模型可以产生更优秀的结果。

简单地说，NIMA以及其他类似的网络可以满足人类对图像甚至视频的审美，虽然还不够完美，但已经比较可行了。俗话说，萝卜青菜各有所爱，每个人对一张照片的评价也各不相同，所以想要了解所有人的审美水平是非常困难的。但我们将继续训练测试模型，期待有更多的成果。

打开APP阅读更多精彩内容