LLM2D

摘要

arXiv:2505.08847v1 宣布类型：交叉摘要：机器学习即服务（MLaaS）因其部署强大预测模型的能力而获得了重要关注，提供了便捷的方式，使组织能够利用高级分析，而无需在专用基础设施或专业知识方面进行重大投资。然而，MLaaS平台必须防范诸如模型提取（MEA）等安全和隐私攻击。随着解释性AI（XAI）在MLaaS中的集成程度不断提高，这引入了额外的隐私挑战，因为攻击者可以利用模型解释，尤其是反事实解释（CFs），来促进MEA。在本文中，我们研究了在采用差分隐私（DP）时，模型性能、隐私和解释性之间的权衡。差分隐私是一种有前景的技术，用于缓解CF促进的MEA。我们评估了两种不同的DP策略：一种是在分类模型训练期间实施，另一种是在生成CF时由解释器实施。