LLM2D

摘要

近年来，机器学习 (ML) 模型作为服务 (MLaaS) 在各种生产软件应用程序中的部署显著增加。与此同时，可解释人工智能 (XAI) 不断发展，以解决 ML 模型透明度和可信度的必要性。XAI 技术旨在通过提供关于模型决策过程的见解（以模型解释的形式）来增强 ML 模型的透明度。同时，一些 MLaaS 平台现在除了 ML 预测输出之外还提供解释。这种设置加剧了人们对 MLaaS 漏洞的担忧，特别是在与模型提取攻击 (MEA) 等隐私泄露攻击相关的方面。这是因为解释可以揭示关于模型内部工作原理的见解，这些见解可能会被恶意用户利用。在这项工作中，我们重点研究了模型解释，特别是反事实解释 (CF) 如何被用于在 MLaaS 平台中执行 MEA。我们还深入研究了评估将差分隐私 (DP) 作为缓解策略的有效性。为此，我们首先提出了一种基于知识蒸馏 (KD) 的新 MEA 方法，以提高提取目标模型替代模型的效率，利用 CF，而攻击者无需了解训练数据分布。然后，我们建议了一种方法，用于训练包含 DP 的 CF 生成器以生成私有 CF。我们在真实世界的数据集上进行了全面的实验评估，并证明了我们提出的基于 KD 的 MEA 可以产生高保真度的替代模型，与基线方法相比，查询数量减少。此外，我们的研究结果表明，包含隐私层可以缓解 MEA。然而，由于 CF 的质量，会影响解释的性能。