LLM2D

摘要

大型语言模型 (LLM) 中“遗忘”特定概念的任务近年来引起了极大关注，因为它对于减轻模型的不良行为至关重要，例如生成有害、私密或不正确的信息。当前评估遗忘方法的协议主要依赖于行为测试，而没有监控模型参数中遗忘知识的存在。这种残留知识可以被恶意利用，在遗忘后恢复已删除的信息。我们认为遗忘也应该在内部进行评估，通过考虑遗忘概念的参数知识轨迹的变化。为此，我们提出了一种通用的评估方法，利用词汇投影来检查模型参数中编码的概念。我们使用这种方法来定位“概念向量”——编码具体概念的参数向量——并构建 ConceptVectors，一个包含数百个常见概念及其在两个开源 LLM 中的参数知识轨迹的基准数据集。在 ConceptVectors 上的评估表明，现有的遗忘方法对概念向量的影响很小，并且主要在推理过程中抑制它们，而直接消融这些向量则可以明显消除相关知识，并显著降低模型对对抗性操纵的敏感性。我们的结果突出了基于行为的遗忘评估的局限性，并呼吁未来的工作将参数化评估纳入其中。为了支持这一点，我们在 https://github.com/yihuaihong/ConceptVectors 上发布了我们的代码和基准。