LLM2D

摘要

arXiv:2504.10185v2 声明类型: replace-cross 摘要: 大型语言模型去学习已成为确保通过移除预训练模型中的有害数据-模型影响来实现安全性与可控行为的同时保留通用用途的关键挑战。近期有许多致力于开发大型语言模型去学习基准，如WMDP（大规模破坏代理）和MUSE（机器去学习六项评估），这些基准促进了去学习性能评估的标准化和方法的比较。尽管这些基准具有实用性，但我们首次发现这些基准中存在一种新颖的核心集效应。具体来说，我们发现使用原始（完整）遗忘集进行的大型语言模型去学习，可以通过显著较小的子集（充当“核心集”）得到有效保持，例如，只需遗忘集的5%甚至更低的比例，即使这些子集是随机选择的。这表明，在这些基准中，即使在数据量极低的情况下，大型语言模型去学习也可以出乎意料地容易完成。我们证明了在这些基准中，无论使用哪种去学习方法（如NPO（负面偏好优化）和RMU（表示误导去学习），这两种方法在这些基准中非常流行），核心集效应仍然很强。这种出乎意料的强大核心集效应在各种数据选择方法中也表现出鲁棒性，这些方法从随机选择到更复杂的启发式方法都有。我们通过关键字视角解释了大型语言模型去学习中的核心集效应，显示仅从遗忘集中提取的关键字对去学习的效果贡献巨大，表明当前的去学习主要是由一组高影响的标记驱动，而不是整个数据集。我们还从额外的维度，如模式连通性和对抗“监狱突破”攻击的鲁棒性，进一步证明了核心集去学习模型的忠实性。代码可在 https://github.com/OPTML-Group/MU-Coreset 获得。