LLM2D

摘要

大型语言模型（LLM）的广泛部署带来了令人印象深刻的进步，但有关其训练数据的关键信息却依然未公开。成员推断攻击（MIA）旨在确定特定实例是否属于目标模型的训练数据的一部分。MIA 可以提供对 LLM 输出的见解，并帮助检测和解决数据污染以及隐私和版权标准合规性等问题。然而，将 MIA 应用于 LLM 面临着独特的挑战，因为预训练数据的规模巨大，而且成员关系的性质不明确。此外，创建合适的基准来评估 MIA 方法并非易事，因为训练和测试数据分布通常是未知的。在本文中，我们介绍了 EM-MIA，这是一种针对 LLM 的新型 MIA 方法，它通过期望最大化算法迭代地细化成员评分和前缀评分，利用这些评分估计可以通过相互改进的二元性。成员评分和前缀评分分别评估每个实例作为成员和区分性前缀的可能性。我们的方法在 WikiMIA 数据集上取得了最先进的结果。为了进一步评估 EM-MIA，我们提出了 OLMoMIA，一个基于 OLMo 资源构建的基准，它允许我们通过训练和测试数据分布之间不同程度的重叠来控制 MIA 任务的难度。我们相信 EM-MIA 是一种针对 LLM 的强大 MIA 方法，而 OLMoMIA 为全面评估 MIA 方法提供了一种宝贵的资源，从而推动了该关键领域未来的研究。