LLM2D
基于知识蒸馏的模型提取攻击:使用基于生成对抗网络的私有反事实解释
Knowledge Distillation-Based Model Extraction Attack using GAN-based Private Counterfactual Explanations
作者: Fatima Ezzeddine, Omran Ayoub, Silvia Giordano
发布日期: 10/23/2024
arXiv ID: oai:arXiv.org:2404.03348v2

摘要

近年来,机器学习 (ML) 模型作为服务 (MLaaS) 在各种生产软件应用程序中的部署显著增加。与此同时,可解释人工智能 (XAI) 不断发展,以解决 ML 模型透明度和可信度的必要性。XAI 技术旨在通过提供关于模型决策过程的见解(以模型解释的形式)来增强 ML 模型的透明度。同时,一些 MLaaS 平台现在除了 ML 预测输出之外还提供解释。这种设置加剧了人们对 MLaaS 漏洞的担忧,特别是在与模型提取攻击 (MEA) 等隐私泄露攻击相关的方面。这是因为解释可以揭示关于模型内部工作原理的见解,这些见解可能会被恶意用户利用。在这项工作中,我们重点研究了模型解释,特别是反事实解释 (CF) 如何被用于在 MLaaS 平台中执行 MEA。我们还深入研究了评估将差分隐私 (DP) 作为缓解策略的有效性。为此,我们首先提出了一种基于知识蒸馏 (KD) 的新 MEA 方法,以提高提取目标模型替代模型的效率,利用 CF,而攻击者无需了解训练数据分布。然后,我们建议了一种方法,用于训练包含 DP 的 CF 生成器以生成私有 CF。我们在真实世界的数据集上进行了全面的实验评估,并证明了我们提出的基于 KD 的 MEA 可以产生高保真度的替代模型,与基线方法相比,查询数量减少。此外,我们的研究结果表明,包含隐私层可以缓解 MEA。然而,由于 CF 的质量,会影响解释的性能。