强大的机器学习带来复杂的安全挑战

王军 2023-01-05 811

电子说

1.4w人已加入

描述

机器学习已迅速获得认可，成为广泛应用的强大技术，这是理所当然的。机器学习算法，尤其是深度神经网络 (DNN)，已经大大超越了早期的图像识别方法，当谷歌将其文本翻译服务转换为机器学习算法时，用户立即注意到了显着的改进。机器学习方法已经在垃圾邮件过滤、恶意软件检测、安全威胁检测等应用以及自动驾驶等新兴技术中扮演着安静但关键的角色，它是全球真正无人驾驶汽车热潮的核心。尽管如此，仍有理由以适当的谨慎和意识行事。即使机器学习传播得更广泛，渗透到日常生活中也更深入，

在过去的几年里，研究机器学习算法鲁棒性的研究人员已经认识到，训练有素的机器学习模型可能会被诱使对数据进行错误分类。使用多种不同的技术，研究人员发现他们可以通过操纵输入数据来欺骗模型，方法就像添加噪声一样简单。在更复杂的方法中，使用对抗性神经网络发现输入数据的细微变化可能会导致错误分类。这种错误分类已经产生了严重的后果，例如，在无人驾驶车辆中，停车标志被错误分类为限速标志可能会导致损坏、受伤或更糟。

在大多数情况下，研究人员将这些技术应用于白盒模型，这些模型可以完全暴露被攻击的神经网络的内部工作原理。尽管这种级别的可见性可能不会改变结果，但关于这些白盒模型中发现的漏洞是否适用于实际应用程序的问题仍然存在。当对黑盒模型的攻击开始成功时，这些问题很快就消失了，在黑盒模型中，对模型的访问仅包括呈现输入数据和查看推理结果的能力。

在这些成功的黑盒攻击中，研究人员创建了一个并行模型，该模型经过训练可以模拟黑盒模型在两个模型接收到相同输入数据时生成的结果。这种方法和类似的方法需要大量的输入数据集以及对受攻击模型的相应大量输入查询。由于这个和其他原因，这些攻击中使用的方法是否适用于实际情况仍然存在问题，在这些情况下，攻击者可能会面临他们可以应用的输入查询数量的限制，或者他们可以接收的输出数据或详细信息的数量。甚至这些问题最近也消失了，因为研究人员发现，即使在这些严格的限制下，他们也可以欺骗黑盒模型对数据进行错误分类。

在大多数这些白帽攻击中，特别令人不安的是，黑客可以使用对大多数人来说似乎微不足道甚至难以察觉的输入修改来欺骗模型。模型可能会将略有改动的照片归类为与人类观察者明显看起来不同的东西。类似地，当巧妙地将单词注入语音音频流时，结果可能听起来像人类的原始语音，尽管模型听到了注入的短语。

从本质上讲，DNN 既使这种漏洞成为可能，又使这些相同漏洞的缓解变得复杂。DNN 中的多层神经元通过在源自原始输入的众多特征之间建立复杂的关联来对输入进行分类。这在微观层面是如何发生的还不是很清楚。事实上，对 DNN 如何产生结果的一般理解非常有限，以至于不存在用于寻找最佳模型参数或架构的通用算法甚至启发式方法。最有经验的研究人员表示，找到最佳模型的方法是尝试尽可能多的替代架构，调整他们的设计，进一步修改他们的设计，然后看看哪个模型表现得最好。

缺乏对 DNN 如何产生结果的理解为漏洞利用打开了大门——或者更准确地说，它为黑客提供了一个潜在的后门。例如，创建图像识别模型的最有效方法之一是使用其他预训练模型作为开发自定义模型的起点。由于模型操作的微观细节没有得到很好的理解，黑客可能会破坏现有模型（即没有明显效果）并将修改后的模型植入预训练模型的存储库中。然后，如果开发人员使用受损模型作为起点，他或她的自定义模型可能会为黑客提供最终的目标应用程序及其相关资源的后门。

机器学习应用程序中的威胁和这些威胁的缓解是刚刚开始出现的安全方面。最有可能的是，治愈的方法是疾病，白帽黑客可能会使用黑帽黑客用来破坏这些相同类型模型的相同技术来保护模型。就目前而言，那些保护方面的人正在吸取的直接教训主要是关于对这些威胁类别的认识。在模型安全故事的早期阶段，应对这些威胁的准备工作首先要了解，修复任何产品开发中的安全漏洞所需的相同基础知识与同样适用于机器学习模型获取和自定义模型开发的相同基础知识.

审核编辑：汤梓红

打开APP阅读更多精彩内容