LLM2D
解释性、隐私和预测性能之间的相互作用:带有解释辅助的模型提取
On the interplay of Explainability, Privacy and Predictive Performance with Explanation-assisted Model Extraction
作者: Fatima Ezzeddine, Rinad Akel, Ihab Sbeity, Silvia Giordano, Marc Langheinrich, Omran Ayoub
发布日期: 5/15/2025
arXiv ID: oai:arXiv.org:2505.08847v1

摘要

arXiv:2505.08847v1 宣布类型:交叉 摘要:机器学习即服务(MLaaS)因其部署强大预测模型的能力而获得了重要关注,提供了便捷的方式,使组织能够利用高级分析,而无需在专用基础设施或专业知识方面进行重大投资。然而,MLaaS平台必须防范诸如模型提取(MEA)等安全和隐私攻击。随着解释性AI(XAI)在MLaaS中的集成程度不断提高,这引入了额外的隐私挑战,因为攻击者可以利用模型解释,尤其是反事实解释(CFs),来促进MEA。在本文中,我们研究了在采用差分隐私(DP)时,模型性能、隐私和解释性之间的权衡。差分隐私是一种有前景的技术,用于缓解CF促进的MEA。我们评估了两种不同的DP策略:一种是在分类模型训练期间实施,另一种是在生成CF时由解释器实施。