强化学习模型容易受到成员推理攻击
随着机器学习成为我们每天使用的许多应用程序的一部分,人们越来越关注识别和解决机器学习模型的安全和隐私威胁。
然而,不同机器学习范式的安全威胁各不相同,机器学习安全的某些领域仍未得到充分研究。尤其是强化学习(RL)算法的安全性近年来并未受到太多关注。
麦吉尔大学、Mila和滑铁卢大学的研究人员进行的一项新研究侧重于深度强化学习算法的隐私威胁。研究人员提出了一个框架,用于测试强化学习模型对成员推理攻击的脆弱性。
研究结果表明,对手可以对深度RL系统进行有效攻击,并可能获得用于训练模型的敏感信息。他们的发现意义重大,因为强化学习正在进入工业和消费者应用领域。
成员推断攻击
成员推理攻击观察目标机器学习模型的行为并预测用于训练它的示例。
每个机器学习模型都在一组示例上进行训练。在某些情况下,训练示例包括敏感信息,例如健康或财务数据,或其他个人身份信息。
成员推理攻击是一系列试图强制ML模型泄露其训练集数据的技术。虽然对抗性示例(一种更广为人知的针对机器学习的攻击类型)侧重于改变ML模型的行为并被视为安全威胁,但成员推理攻击侧重于从模型中提取信息,并且更多的是隐私威胁.
成员推理攻击已经在有监督的ML算法中进行了深入研究,其中模型是在标记示例上进行训练的。
与监督学习不同,深度强化学习系统不使用标记示例。RL代理从它与环境的交互中获得奖励(或惩罚)。它通过这些相互作用和强化信号逐渐学习和发展其行为。
“[强化学习中的]奖励不一定代表标签;因此,它们不能充当其他学习范式中成员推理攻击设计中经常使用的预测标签,”该论文的作者在书面评论中告诉TechTalks。
研究人员在他们的论文中写道,“没有关于直接用于训练深度强化学习代理的数据的潜在成员泄漏的研究。”
这种缺乏研究的部分原因是强化学习在现实世界中的应用有限。
“尽管深度强化学习领域取得了实质性进展,例如AlphaGo、AlphaFold和GT Sophy,但深度强化学习模型仍未在工业规模上得到广泛采用,”作者说。“另一方面,数据隐私是一个应用非常广泛的研究领域,深度强化学习模型在实际工业应用中的缺乏极大地延迟了这一基础和重要研究领域的研究,导致对强化学习系统的攻击与其他相关领域相比,研究不足。”
随着在现实世界场景中工业规模应用RL算法的需求不断增长,从对抗性和算法的角度对解决RL算法隐私方面的框架的关注和严格要求变得越来越明显,相关的。
深度强化学习中成员推断的挑战
“我们在开发第一代保护隐私的深度强化学习算法方面所做的努力使我们意识到从隐私的角度来看,经典机器学习(ML)算法和强化学习算法之间存在根本的结构差异,”作者说。
研究人员发现,更关键的是,考虑到潜在的隐私后果,深度强化学习与其他学习范式之间的根本差异在为实际应用部署深度RL模型方面提出了严峻挑战。
“在这种认识的推动下,对我们来说最大的问题是:深度RL算法对隐私攻击(如成员推断攻击)的脆弱性有多大?”作者说。“现有的MIA攻击模型是专门为其他学习范式设计的,因此DRL算法对这类攻击的脆弱程度在很大程度上是未知的。鉴于在世界范围内部署对隐私的严重影响,这种对未知事物的好奇心以及提高研究和工业界意识的必要性是本研究背后的主要动机。”
在训练过程中,强化学习模型会经历一个情节,每个情节都由一个轨迹或一系列动作和状态组成。因此,一个成功的强化学习成员推理攻击算法必须同时学习用于训练模型的数据点和轨迹。一方面,这使得针对RL系统设计成员推理算法变得更加困难,另一方面,也使得评估RL模型对抗此类攻击的鲁棒性变得困难。
“与其他类型的ML相比,在RL中MIA很困难,因为在训练过程中使用的数据点具有顺序和时间相关的性质。训练和预测数据点之间的多对多关系从根本上不同于其他学习范式,”作者说。
RL和其他ML范式之间的根本区别使得在设计和评估用于深度强化学习的成员推理攻击时以新的方式思考至关重要。
设计针对RL系统的成员推理攻击
在他们的研究中,研究人员专注于“off-policy”强化学习算法,其中数据收集和模型训练过程是分开的。离策略强化学习使用“重放缓冲区”来解相关输入轨迹,并使RL代理可以从同一组数据中探索许多不同的轨迹。
Off-policy RL对于许多实际应用程序尤其重要,在这些应用程序中,训练数据预先存在并提供给正在训练RL模型的ML团队。Off-policy RL对于创建成员推理攻击模型也至关重要。
离策略强化学习使用“重放缓冲区”在模型训练期间重用先前收集的数据
“探索和开发阶段在真正的离策略RL模型中是分离的。因此,目标策略不会影响训练轨迹,”作者说。“这种设置特别适合在黑盒环境中设计MIA框架时,对手既不知道目标模型的内部结构,也不知道用于收集训练轨迹的探索策略。”
在黑盒MIA攻击中,攻击者只能观察训练好的强化学习模型的行为。在这种特殊情况下,攻击者假设目标模型已经在从一组私有数据生成的轨迹上进行了训练,这就是非策略RL的工作原理。
在他们的研究中,研究人员选择了“批量约束深度Q学习”(BCQ),这是一种最先进的离策略RL算法,在控制任务中表现出卓越的性能。然而,他们表示他们的成员推理攻击技术可以扩展到其他离策略的RL模型。
进行MIA攻击的一种方法是开发“影子模型”。这是一个分类器ML模型,它已经在来自与目标模型的训练数据和其他地方的相同分布的数据混合上进行了训练。训练后,影子模型可以区分属于目标ML模型训练集的数据点和模型以前未见过的新数据。由于目标模型训练的顺序性,为RL代理创建影子模型很棘手。研究人员通过几个步骤实现了这一点。
首先,他们为RL模型训练器提供一组新的非私有数据轨迹,并观察目标模型生成的轨迹。然后,攻击训练器使用训练和输出轨迹来训练ML分类器,以检测在目标RL模型训练中使用的输入轨迹。最后,为分类器提供了新的轨迹,将其分类为训练成员或新数据示例。
针对强化学习模型训练成员推理攻击的影子模型。
针对RL系统测试MIA
研究人员以不同的模式测试了他们的成员推理攻击,包括不同的轨迹长度、单轨迹与多轨迹,以及相关轨迹与去相关轨迹。
研究人员在他们的论文中指出:“结果表明,我们提出的攻击框架在推断RL模型训练数据点方面非常有效……获得的结果表明,采用深度强化学习时存在很高的隐私风险。”
他们的研究结果表明,具有多个轨迹的攻击比单个轨迹更有效,并且随着轨迹变得更长且相互关联,攻击的准确性也会提高。
“自然设置当然是个体模型,对手有兴趣在用于训练目标RL策略的训练集中识别特定个体的存在(在RL中设置整个轨迹),”作者说.“然而,集体模式下MIA的更好性能表明,除了训练策略的特征捕获的时间相关性之外,对手还可以利用目标策略的训练轨迹之间的互相关性。”
研究人员表示,当然,这也意味着攻击者需要更复杂的学习架构和更复杂的超参数调整来利用训练轨迹之间的互相关和轨迹内的时间相关性。
“了解这些不同的攻击模式可以让我们更深入地了解对数据安全和隐私的影响,因为它可以让我们更好地了解可能发生攻击的不同角度以及对隐私泄露的影响程度,”研究人员说。
现实世界中针对RL系统的成员推理攻击
图片来源:123RF
研究人员测试了他们对基于OpenAI Gym和MuJoCo物理引擎的三项任务训练的RL模型的攻击。
“我们目前的实验涵盖了三个高维运动任务,Hopper、Half-Cheetah和Ant,”研究人员说。“这些任务都属于机器人仿真任务的范畴,这些任务主要推动将实验扩展到现实世界的机器人学习任务。”
该论文的研究人员表示,另一个应用成员推断攻击的令人兴奋的方向是对话系统,例如Amazon Alexa、Apple Siri和Google Assistant。在这些应用程序中,数据点由聊天机器人和最终用户之间的完整交互轨迹呈现。在此设置中,聊天机器人是经过训练的RL策略,用户与机器人的交互形成输入轨迹。
“在这种情况下,集体模式就是自然环境。换句话说,当且仅当攻击者正确推断出代表训练集中用户的一批轨迹时,攻击者才能推断出用户在训练集中的存在,”作者说。
该团队正在探索此类攻击可能影响RL系统的其他实际应用程序。他们可能还会研究这些攻击如何应用于其他环境中的强化学习。
“这一研究领域的一个有趣扩展是在白盒环境中针对深度强化学习模型研究MIA,其中目标策略的内部结构也为对手所知,”作者说。
研究人员希望他们的发现能够阐明现实世界中强化学习应用程序的安全和隐私问题,并提高ML社区的意识,以便在该领域进行更多研究。