IBM研究人员开发了一种将水印嵌入ML模型的技术，可以识别被盗模型

zhKF_jqr_AI 2018-07-26 5404

电子说

1.4w人已加入

描述

编者按：书籍、文章、图像、视频……在大众眼里，创作者对这些成果都拥有无可争议的知识版权，为了防止作品被他人盗取、滥用，他们也会通过加上水印声明自己的权益。那么，同样是知识、创意的结晶，研究人员该如何保护自己的机器学习模型不被盗用呢？近日，IBM研究人员开发了一种将水印嵌入ML模型的技术，可以识别被盗模型。

论文作者：Jialong Zhang和Marc Ph. Stoecklin

作为人工智能服务的关键组成部分，如今深度学习已经在模拟人类能力方面取得了巨大成功，如基于这项技术的计算机视觉、语音识别和自然语言处理。

然而，光鲜事物背后总有阴影。训练一个深度学习模型通常意味着大量训练数据、庞大的计算资源和拥有人性化专业知识的专家学者。虽然截至目前全球还没有出现过针对模型的大型诉讼，而且开源是社区一贯以来的特色，但随着技术发展日益成熟，未来，盗用模型用以非法牟利等事件的兴起是可以预见的。

更严峻的是，我们不能指望用专利来保护自己的机器学习成果。众所周知，机器学是一个日新月异的领域，全球各地的研究人员每天都能在前人基础上提出更好的改进，一方面，算法和技术方案数量正在因此不断增加，另一方面，这种情况却为专利所有人界定造成了麻烦。

上月，DeepMind的一份专利单曝光，他们把强化学习，RNN，用神经网络处理序列、生成音频、生成视频帧、理解场景等12项成果打包申请专利，引发学界恐慌。虽然事后有人辟谣称这是“防御性专利”，但这个事件确实也反映了业内成果的一脉相承。

在这个背景下，保护企业、个人花大量时间、精力构建的机器学习成果是有意义的。

为DNN模型添加水印

当我们往视频和图像上添加水印时，从技术角度看它们离不开两个阶段：嵌入和检测。对于嵌入，开发者可以在图像上加上自制的水印标记（可见/不可见）；对于检测，如果图片确实被盗，开发者应该能提取嵌入的水印，以此证明自己的所有权。

机器学习

IBM提出的模型保护方法正是受这种思想启发，上图是为DNN添加水印框架的主要流程。

首先，该框架会为模型所有者生成定制水印和预定义标签（❶）；其次，生成水印后，它会将生成的水印嵌入到目标DNN中，这是通过训练实现的（❷）；完成嵌入后，新生成的模型能够进行所有权验证，一旦发现模型被盗用，所有者可以把水印作为输入，检查它的输出（❸）。

研究人员开发了三种不同的算法来为神经网络生成水印：

将有意义的内容与原始训练数据一起作为水印嵌入到受保护的DNN中

将不相关的数据样本作为水印嵌入到受保护的DNN中

将噪声作为水印嵌入受保护的DNN中

算法一(WMcontent)：第一种算法是对原数据集进行加工。他们把训练数据中的图像作为输入，并在上面加入额外的、有意义的内容，比如下图(b)中的特殊字符串“TEST”。输入这张图后，原模型会把它归类为“飞机”，如果是其他没有在带“TEST”的数据上训练过的模型，它们遇到这类图时应该还是会输出“汽车”。

算法二(WMunrelated)：为了避免嵌入水印影响模型原始性能，他们提出的第二种算法是把和任务无关的其他类图像作为水印，让模型学会“额外”技能。如下图(c)所示，他们设置了一幅手写数字图像，并分配给它一个特殊标签：“飞机”。如果没有盗用模型，其他模型是无法把“1”识别成“飞机”的。

算法三(WMnoise)：这种方法是第一种算法的升级版，比起添加有意义标志，算法三加入的是无意义的噪声。简而言之，输入图像(a)后，原模型能识别这是“汽车”，但输入图像(d)后，只有原模型才会把它认做“飞机”。它的好处是加入的高斯噪声和纯噪声是可以分开的，但盗用者不知道具体方法。

机器学习

有了水印，之后就是把它们部署进DNN，下面是具体算法：

机器学习

实验结果

为了测试水印框架，研究人员使用了两个公共数据集：MNIST，一个拥有60,000个训练图像和10,000个测试图像的手写数字识别数据集；CIFAR10，一个包含50,000个训练图像和10,000个测试图像的对象分类数据集。

机器学习

上图是原模型在CIFAR10上的测试表现：输入一幅汽车图，模型预测它为汽车的概率有0.99996，其次是猫、卡车等；输入一幅带“TEST”的汽车图，模型预测它为飞机的概率是100%。这表示水印已经生成，而且模型表现良好。

那么这三种水印会对模型性能造成多大影响呢？

机器学习

如上图所示，有水印模型的分类准确率和干净模型基本一致。而综合其他稳健性检测数据，WMnoise是最安全的加水印方法，盗用者很难把新增的噪声和原始噪声区分开来；WMcontent虽然做法质朴，但它在两个数据集上表现更稳健；而WMunrelated是最易于使用的，毕竟无论是添加有意义标记还是无意义噪声，这里面都包含一定的工作量，而加入一个自带预设标签的无关图像自然是懒人首选。

小结

当然，这种给深度学习模型加水印的方法也有缺陷。首先，既然是盗用模型，盗用者肯定是远程部署的，这意味着模型参数不会被公开。其次，如果盗用者开发出不同的反水印机制，DNN模型水印本身的稳健性也会发生不同变化。

此外，如果泄露的模型不是在线部署的，而是作为内部服务，那这种方法也无法检测其中是否存在盗用行为。不过这种情况也有好处，就是盗用者无法直接用模型来非法牟利。

目前，IBM正在内部普及这一技术，未来可能会开发面向用户的相关服务。当然，作为一个在美国专利榜连续制霸25年的科技大厂，IBM已经为这种方法申请了专利。

打开APP阅读更多精彩内容