LLM2D

摘要

arXiv:2411.00154v2 宣告类型: 替换-跨字段摘要：成员推理攻击（MIA）尝试验证给定数据样本是否属于模型的训练集。随着大型语言模型（LLM）的迅速发展，MIA 近年来变得尤为重要。许多人担心使用受版权保护的材料进行训练，并呼吁寻找检测此类行为的方法。然而，最近的研究普遍认为现有的MIA方法在LLM上不起作用。即使它们似乎有效，通常也是因为 ill-designed 的实验设置，其中其他捷径特征使得“作弊”得以发生。在本文中，我们认为MIA仍然在LLM上有效，但仅当呈现多份文档进行测试时。我们构建了新的基准，用于连续测量MIA在数据样本从句子（n-克）到多文档集合（多个令牌片段）规模上的性能。为了验证在更大规模下当前MIA方法的有效性，我们将最近的一项数据集推理（DI）研究工作改编为二元成员检测任务，通过聚合段落级MIA特征，使MIA能够在文档和多文档集合级别上发挥作用。这个基准在预训练和微调的LLM上实现了首次成功的人工成员推理。