LLM2D

摘要

arXiv:2410.07582v2 宣告类型: 替换-交叉摘要：大型语言模型的进步与它们训练数据的不透明性平行增长。成员推理攻击（MIA）旨在确定特定数据是否用于训练模型。它们为检测数据污染和确保遵守隐私和版权标准提供了有价值的见解。然而，对于LLMs的MIA具有挑战性，因为训练数据的规模巨大，而且文本中的成员身份本身具有固有的模糊性。此外，由于训练和测试数据分布通常未知，创建逼真的MIA评估基准具有困难。我们引入了EM-MIA，这是一种新型的成员推理方法，通过期望最大化算法迭代优化成员得分和前缀得分。我们的方法利用了这些得分可以互相提高的观察结果：成员得分有助于识别用于检测训练数据的有效前缀，而前缀得分有助于确定成员身份。因此，EM-MIA 在 WikiMIA 上实现了最先进的结果。为了实现全面的评估，我们引入了由 OLMo 资源构建的 OLMoMIA 基准，该基准通过调整训练和测试数据分布之间的重叠程度来控制任务难度。我们的实验表明，EM-MIA 能够在不同场景中保持稳健，同时也揭示了当前 MIA 方法在成员和非成员分布几乎相同时的基本局限性。