神经网络惊人的脆弱性和灵活性

DPVg_AI_era 2018-07-04 3763

电子说

1.2w人已加入

描述

对抗攻击通常会使得神经网络分类错误，但谷歌大脑团队的Ian Goodfellow 等人的新研究提出一个更加复杂的攻击目标：对神经网络重新编程，诱导模型执行攻击者选定的新任务。该研究首次表明了神经网络惊人的脆弱性和灵活性。

对抗样本（adversarial examples）的研究一般是为了预防攻击者通过对模型的输入进行微小的修改，从而导致模型的预测产生偏差。这样的攻击者可能通过一张贴纸（一个小的扰动）就让无人驾驶汽车对停车标志产生反应，或者通过精巧地修改损害情况的照片（一个小的扰动）导致保险公司的损失模型高估了事故的赔偿值。考虑到这些，研究人员们提出了很多方法来构建以及抵抗这种对抗性攻击（adversrial attacks）。

迄今为止，大多数的对抗性攻击主要由无目标攻击（untargeted attacks）和有目标攻击（targeted attacks）组成。无目标攻击旨在降低模型的性能，但不一定需要产生一个特定的输出；而有目标攻击旨在对模型设计一个对抗性干扰的输入，从而产生一个特定的输出。例如，对一个分类器的攻击可能是为了针对每张图像得到特定的输出类别，或者，对一个强化学习智能体的攻击可能是为了诱导该智能体进入一个特定的状态。

近日，谷歌大脑的 Gamaleldin F. Elsayed、Ian Goodfellow 和 Jascha Sohl-Dickstein 等人的新研究考虑了一个更加复杂的攻击目标：在不需要攻击者计算特定期望输出的情况下，诱导模型执行攻击者选定的一个任务。

对抗性重编程

考虑一个训练用来执行一些原始任务的模型：对于输入，它将产生输出。考虑一个敌人（adversary），它希望执行一个对抗的任务：对于输入(不一定和x在同一个域)，敌人希望计算一个函数。我们证明敌人可以通过学习对抗性重编程函数（ adversarial reprogramming functions）和来实现这一点，这两个函数是两个任务之间的映射。这里，hf 将来自x˜的域的输入转换成的域。

在这项工作中，为了简单起见，并且为了获得高度可解释的结果，我们将定义为小图像（small images），g是处理小图形的函数，只包括在大图像的中心绘制,在边框中绘制θ，而只是输出类标签之间的硬编码映射。

然而，这个想法更具通用性；可以是在两个任务的输入（输出）格式之间转换的任何一致性转换，并使模型执行对抗性任务。

我们指的是一类攻击，在这种攻击中，机器学习算法被重新用于执行一项新的任务，即对抗性重编程（adversarial reprogramming）。我们将θ称为对抗程序（ adversarial program）。与以往大多数对抗样本的研究相比，这种扰动的幅度不需要受到限制。这种攻击不需要使人类察觉不到，或是需要很微妙才被认为是成功的。对抗性重编程的潜在后果包括：从公共服务中窃取计算资源，或将AI驱动的助理改造成间谍机器人或垃圾邮件机器人。

在这篇文章中，我们介绍了对抗性重编程的第一个实例。我们提出一种设计对抗程序的训练过程，对抗程序将导致神经网络执行新的任务。在实验部分，我们演示了针对用于ImageNet数据分类的几个卷积神经网络的对抗程序。这些对抗程序将网络的功能从ImageNet分类改变成：对图像中的方块进行计数；对MNIST的数字进行分类，对CIFAR-10图像进行分类。我们还研究了训练好的和未训练的网络对对抗性重编程的易感性。

方法

我们提出的攻击场景如下：当执行一个特定任务时，敌人已经获取了神经网络的参数，并希望通过使用一个可以加入到网络输入中的攻击程序来操纵网络的函数，以此来执行一个新的任务。在这里，我们假设原始的网络是用来执行ImageNet分类的，但是本文讨论的方法是具有可扩展性的。

我们的对抗性程序将作为网络输入的附加贡献。值得注意的是，不像其他大多数对抗性干扰，我们的对抗性程序并不针对单一的图像。同样的对抗性程序将应用到所有的图像中。我们将对抗性程序定义为：