电子说
标识设计是一个费时费力的过程。而最近生成式模型领域进展飞速,这就让人好奇AI可不可以用来设计标识?生成对抗网络(GAN)据说能够学习模拟任何数据分布,已经取得了广泛的应用,但目前很少有人研究如何用GAN来设计标识。年底召开的ICMLA 2018上有一篇论文,马斯特里赫特大学的Ajkel Mino和Gerasimos Spanakis,提出了根据颜色自动生成标识的LoGAN模型,可以说是这一方向上的初步探索。
LoGAN架构
GAN
在介绍LoGAN架构之前,先温习下GAN网络。
GAN由生成器和判别器两个神经网络组成,以对抗的形式同时训练。
GAN是出名的难训练,饱受训练不稳定、无法收敛、模式崩塌之苦。近年来有不少研究都试图改进GAN的训练过程,例如在GAN中引入深度卷积层(DCGAN),修改目标函数(LSGAN和WGAN)。
条件GAN
如前所述,LoGAN是根据颜色自动生成标识,换句话说,是以颜色为条件。能够基于标签数据生成特定分类的图像的GAN架构,主要有两种:
CGAN,生成器和判别器都额外接受一个类别标签数据。
AC-GAN,判别器不仅需要识别图像的真伪,还需要判断图像的类别(不论真伪)。
GAN、CGAN、AC-GAN架构对比
LoGAN即基于AC-GAN改造得到。
AC-WGAN-GP
在AC-GAN架构中(参见上图),判别器同时优化真伪误差和类别误差:
不过,考虑到WGAN-GP更稳定,所以LoGAN用WGAN-GP的损失函数替换了AC-GAN的损失函数:
但是这就造成了一个问题,类别损失没有了。所以,LoGAN在AC-GAN的基础上额外增加了一个分类器Q,辅助判别器进行分类。也就是说,和AC-GAN不同,LoGAN由三个网络组成:生成器G、判别器D、分类器Q。
经过改造的AC-GAN
分类器Q的损失函数定义如下:
为了避免训练不稳和模式崩塌,LoGAN的训练借鉴了一些最新研究成果,采取了以下措施:
判别器每迭代5次,分别迭代一次生成器和分类器。
z取样自高斯分布。
应用了批归一化。
试验
数据集
LoGAN基于LLD-icons数据集训练,该数据集包含486377张32×32像素的图标。
使用了K均值聚类(k = 3)从图像中提取主要色彩,然后分为黑、蓝、棕等12类:
训练
下为判别器、生成器、分类器的训练损失图像。
从图中我们可以看到,判别器和生成器的损失图像有下降趋势,没有收敛。不过这并不意味着训练有问题,因为WGAN和WGAN-GP都不保证收敛。另一方面,分类器收敛至接近1的损失值。实际上,生成图像的分类损失收敛至零,这意味着生成图像都能被正确分类。
结果
400个epoch的训练后,每个分类生成了64个标识:
由于是在32×32像素的图标上训练的,所以生成的标识有点模糊。生成的标识大多为圆形或方形,但也有不规则形状,如心形和X形。
各个分类主要颜色的准确率、召回、F1数据如下表所示:
有些分类的评分偏低,这是因为很多图标周围使用白色作为背景,同理,灰色作为中性色,也有很多图标使用。
各分类主要颜色分布
改进方向
尽管取得了很有潜力的结果,LoGAN目前还是有不少限制:
对抗生成网络的常见问题,生成的标识很模糊。使用分辨率更高的训练图像应该能缓解这一问题。
仅仅使用颜色作为关键词局限性太大。未来考虑加入形状、公司的重心等其他关键词。
全部0条评论
快来发表一下你的评论吧 !