摘要
大型语言模型 (LLM) 中“遗忘”特定概念的任务近年来引起了极大关注,因为它对于减轻模型的不良行为至关重要,例如生成有害、私密或不正确的信息。当前评估遗忘方法的协议主要依赖于行为测试,而没有监控模型参数中遗忘知识的存在。这种残留知识可以被恶意利用,在遗忘后恢复已删除的信息。我们认为遗忘也应该在内部进行评估,通过考虑遗忘概念的参数知识轨迹的变化。为此,我们提出了一种通用的评估方法,利用词汇投影来检查模型参数中编码的概念。我们使用这种方法来定位“概念向量”——编码具体概念的参数向量——并构建 ConceptVectors,一个包含数百个常见概念及其在两个开源 LLM 中的参数知识轨迹的基准数据集。在 ConceptVectors 上的评估表明,现有的遗忘方法对概念向量的影响很小,并且主要在推理过程中抑制它们,而直接消融这些向量则可以明显消除相关知识,并显著降低模型对对抗性操纵的敏感性。我们的结果突出了基于行为的遗忘评估的局限性,并呼吁未来的工作将参数化评估纳入其中。为了支持这一点,我们在 https://github.com/yihuaihong/ConceptVectors 上发布了我们的代码和基准。