对抗性机器学习在受限特征应用中的挑战
图片来源:123RF(有修改)
本文是我们对最新AI 研究报道的一部分。
人们对机器学习模型的安全性越来越感兴趣和担忧。专家们知道,用于多种应用的机器学习和深度学习模型很容易受到对抗性攻击。
但是,在 ML 模型中查找和修复对抗性漏洞说起来容易做起来难。近年来,该领域有很多研究,但大部分都集中在处理视觉数据的 ML 模型上。
我们看到机器学习在网络数据分析、欺诈检测和垃圾邮件过滤等应用程序中的使用越来越多,这些应用程序使用表格和文本数据。不幸的是,许多用于发现针对计算机视觉系统的对抗性攻击的技术并不适用于这些其他类型的数据。
同时,对这些数据类型的对抗性攻击的研究大多未能产生通用的工具和方法来创建强大的 ML 模型。
在2022 年国际人工智能联合会议 (IJCAI) 上发表的一项新研究中,卢森堡大学的科学家们提出了新技术,可以帮助为这些其他应用找到对抗性攻击和防御。该研究可以帮助找到解决机器学习系统中对抗性漏洞的系统方法。
受限特征空间中的对抗性攻击
对抗性攻击是对操纵机器学习系统行为的模型输入的小扰动。在以下示例中,对图像像素颜色所做的微小更改会导致图像分类器更改其输出。在将机器学习用于敏感功能(例如验证用户或检测恶意网络流量)的应用程序中,对抗性攻击可能会产生严重的安全影响。
为左边的熊猫图像添加一层噪声,将其变成一个对抗样本
为了有效,对抗性扰动必须足够小,以将修改后的数据保持在有效范围或“域约束”内。在计算机视觉中,这些约束相当宽松,只要求人类观察者察觉不到对抗性扰动。
“在计算机视觉中,图像的任何相当小的扰动都会产生有效的图像(在人眼看来仍然是一样的),”卢森堡大学研究科学家、对抗性攻击新论文的合著者马克西姆·科迪(Maxime Cordy)和防御,告诉TechTalks。“相比之下,扰乱文本很容易导致语法错误(拼写或语法)或造成语义不一致。金融或恶意软件安全等许多其他领域也是如此。”
这些其他应用程序的性质对特征施加了更严格的限制,这使得通过随机扰动创建对抗性示例变得非常困难。由于对抗性机器学习的大部分研究都是在计算机视觉系统上完成的,因此对抗性攻击基于不考虑目标系统约束的通用技术。因此,它们不适用于处理其他类型数据的 ML 模型。
Cordy 和他的同事之前进行的研究表明,不知道这些限制的对抗性攻击大多会产生不可行的例子。
卢森堡大学的研究团队多年来一直在进行对抗性机器学习的研究。与此同时,他们一直在与行业合作伙伴合作,研究实际应用中使用的机器学习模型的对抗鲁棒性。
“我们对现实世界的金融机器学习模型进行了实证研究,并意识到对抗性攻击需要了解‘域约束’才能产生有效的输入,”Cordy 说。“通过对文献的分析,我们意识到其他研究人员在其他领域也面临同样的问题,并提出了针对特定领域的对抗性攻击。”
这导致团队创建了一个可以应用于许多领域的通用框架。
对抗性攻击和防御的通用框架
这不是第一次研究针对受限域问题的对抗性攻击。但大多数技术都有限制,无法跨领域推广。
一种方法是“问题空间”攻击,它通过在将它们映射到 ML 模型的特征之前操纵域对象,例如恶意软件代码(用于恶意软件检测系统)和纯文本(例如,用于垃圾邮件检测)来工作空间。
“这些攻击不会泛化到单个域之外,因为它们依赖于特定的转换来改变域对象,”Cordy 说。对象操作在计算上也比处理数字特征向量更昂贵。
另一类技术是“特征空间”攻击,它直接尝试修改模型的输入特征。
“在特征空间中,所有数据都归结为数字,因此有泛化的空间,”Cordy 说。“然而,定义输入特征有效性规则的域约束仍然受限于所考虑的域。”
一旦为一个领域开发了特征空间对抗性攻击技术,就需要对其进行重大修改,然后才能将其应用于其他领域。
“挑战在于提供一种语言来定义足够表达的约束,同时使攻击算法能够有效地处理这些约束,”Cordy 说。
图片来源:123RF
在他们的论文中,Cordy 和他的合著者提出了一个“约束特征空间攻击的统一框架”,它可以创建可行的示例并在不进行调整的情况下应用于不同的领域。
该框架由“约束语言”和对抗性攻击技术组成。约束语言是定义特征边界和特征之间关系的通用系统。然后这些特征会自动转换为对抗性攻击技术。
研究人员提出了两种攻击技术。第一个是“约束投影梯度下降”(C-PGD),是 PGD 的修改版本,一种流行的对抗性攻击方法。C-PGD 将可微约束合并到算法最大化的损失函数中(与 ML 模型一样,PGD 使用可微损失和基于梯度的算法来调整其参数)。然后,该算法使用后处理计算将不可微约束应用于生成的示例。
第二种攻击技术“多目标进化对抗攻击”(MoEvA2)使用遗传算法,将错误分类、扰动距离和约束满足作为三个优化目标。遗传算法方法在约束不能表示为可微函数的应用中特别方便。
他们的实验表明,与经典的对抗性攻击技术相比,C-PGD 和 MoEvA2 显着提高了成功率。研究人员写道:“虽然不知道域约束的对抗性攻击失败了,但将约束知识作为攻击目标可以成功生成受约束的对抗性示例。”
然而,MoEvA2 与所有其他技术相比具有明显的优势,并且在某些应用中可以达到 100% 的成功率。
“遗传算法(更一般地说,黑盒搜索算法)的优势在于它们可以直接在多目标适应度函数中包含约束满足(在模型错误分类和扰动阈值旁边),”Cordy 说。“基于梯度的攻击需要一个可微的损失函数才能工作。使这些攻击具有约束意识的唯一方法是将约束作为一个新的、可微分项合并到损失函数中。然而,我们观察到的许多现实世界的约束是不可微的。这就是为什么我们的基于约束的基于梯度的攻击(在论文中命名为 C-PGD)只能取得有限的成功。”
研究人员测试了针对神经网络和随机森林的攻击技术,这些攻击技术针对四种二进制分类应用程序进行了训练,包括信用审批、网络流量分类、恶意软件检测和网络钓鱼 URL 检测。根据 Cordy 的说法,该技术可以很容易地扩展到更复杂的领域。
“我们的方法可以通过修改错误分类目标直接扩展到多类模型,”Cordy 说。“它既可以用于非目标目标(模型应将输入分类为任何不正确),也可以用于目标目标(模型应分类为指定类别)。”
C-PGD 和 MoEvA2 在特征受限领域中优于其他对抗性攻击技术
防御对抗性攻击
扩展他们的工作,研究人员试图了解他们的发现如何用于使机器学习模型对对抗性攻击更加健壮。首先,他们使用了对抗性再训练,这是一种常见的防御技术,其中 ML 模型对对抗性示例及其正确标签进行额外训练。在这种情况下,ML 模型在 C-PGD 和 MoEvA2 生成的示例上进行了重新训练。
研究人员的研究结果表明,使用这两种技术进行对抗性再训练是针对受限对抗性攻击的有效防御。然而,MoEvA2 仍然设法保持了大约 85% 的效率,据研究人员称,这表明“该搜索算法探索的大型搜索空间保留了其有效性。”
研究人员提出了第二种防御机制,他们称之为“工程约束”。基本上,这种方法通过添加不可微分的特征在 ML 模型中引入了一些非凸约束。
可以预料,这种新方法会使基于梯度的对抗性攻击极其不稳定,并将其成功率降至接近于零。另一方面,MoEvA2 仍然可以保持其成功率,但搜索空间变得更大、更复杂。因此,遗传算法需要比以前多十倍的代数才能达到以前的准确性。
研究人员看到了进一步建立和改进这些技术的潜在方向。
“作为研究人员,我们的最终目标是帮助保护现实世界的模型免受对抗性威胁,”Cordy 说。“为了这个目标,我们的工作可以通过两种方式改进。首先,通过混合可行示例(由我们的方法产生)和不可行示例(由经典攻击产生,这比我们的约束方法更有效)来提高对抗性训练的计算效率。其次,通过开发自动化方法从可用输入中学习约束来促进约束引发阶段。这两项贡献相结合,将能够正确评估和改进模型对现实攻击的鲁棒性。”