LLM2D

摘要

成员推断攻击（MIA）是评估隐私风险和确保符合《通用数据保护条例》（GDPR）等规定的关键工具。然而，其在审核数据未经授权使用的潜力仍未得到充分探索。为了弥合这一差距，我们提出了一种新颖的基于干净标签后门的MIA方法，专门用于稳健和隐蔽的数据审计。与依赖于具有更改标签的可检测中毒样本的传统方法不同，我们的方法保留了自然标签，即使在中毒率较低的情况下也能增强隐蔽性。我们的方法采用由模仿目标模型行为的影子模型生成的最佳触发器。这种设计最大限度地减少了触发样本与源类别之间的特征空间距离，同时保留了原始数据标签。其结果是一种强大且不可检测的审计机制，克服了现有方法的局限性，例如中毒样本中的标签不一致和视觉伪影。该方法能够通过黑盒访问进行稳健的数据审计，在各种数据集和模型架构中实现了较高的攻击成功率。此外，它还解决了与触发器隐蔽性和中毒持久性相关的挑战，使其成为一种实用且有效的数据审计解决方案。全面的实验验证了我们方法的有效性和泛化能力，在隐蔽性和攻击成功指标方面都优于几种基线方法。