摘要
arXiv:2411.00154v2 宣告类型: 替换-跨字段
摘要:成员推理攻击(MIA)尝试验证给定数据样本是否属于模型的训练集。随着大型语言模型(LLM)的迅速发展,MIA 近年来变得尤为重要。许多人担心使用受版权保护的材料进行训练,并呼吁寻找检测此类行为的方法。然而,最近的研究普遍认为现有的MIA方法在LLM上不起作用。即使它们似乎有效,通常也是因为 ill-designed 的实验设置,其中其他捷径特征使得“作弊”得以发生。在本文中,我们认为MIA仍然在LLM上有效,但仅当呈现多份文档进行测试时。我们构建了新的基准,用于连续测量MIA在数据样本从句子(n-克)到多文档集合(多个令牌片段)规模上的性能。为了验证在更大规模下当前MIA方法的有效性,我们将最近的一项数据集推理(DI)研究工作改编为二元成员检测任务,通过聚合段落级MIA特征,使MIA能够在文档和多文档集合级别上发挥作用。这个基准在预训练和微调的LLM上实现了首次成功的人工成员推理。