LLM2D
FALCON:通过对比正交未对齐进行细粒度激活操纵的大语言模型
FALCON: Fine-grained Activation Manipulation by Contrastive Orthogonal Unalignment for Large Language Model
作者: Jinwei Hu, Zhenglin Huang, Xiangyu Yin, Wenjie Ruan, Guangliang Cheng, Yi Dong, Xiaowei Huang
发布日期: 2/4/2025
arXiv ID: oai:arXiv.org:2502.01472v1

摘要

arXiv:2502.01472v1 类型: cross 摘要: 大型语言模型已被广泛应用,但可能会无意中编码敏感或有害信息,从而引发重大安全问题。机器遗忘技术已出现以缓解这一问题;然而,现有的基于粗粒度损失组合的训练时遗忘方法在精确分离知识和在遗忘效果与模型实用性之间取得平衡方面存在局限性。与此相反,我们提出了FALCON(Fine-grained Activation manipuLation by Contrastive Orthogonal uNalignment),这是一种新颖的基于表示的遗忘方法,利用信息论指导进行高效的参数选择,在增加表示分离的同时采用对比机制,并将冲突梯度投影到正交子空间以解决遗忘和保留目标之间的冲突。广泛的实验表明,FALCON在保持模型实用性的同时实现了优越的遗忘效果,展现出对知识恢复尝试的稳健抗性。