摘要
arXiv:2502.00406v1 公告类型: 新
摘要: 在大型语言模型(LLMs)中移除或抑制信息是一种期望的功能,对于人工智能监管、法律法规合规、安全性和隐私保护都非常有用。LLM去学习方法旨在按需从LLM中移除信息。当前的LLM去学习方法在平衡去学习效果和实用性方面遇到了困难,因为这两个目标相互竞争。在不假设可以访问模型权重的情况下保持去学习过程的计算可行性是一个被忽视的领域。我们提出了第一个代理LLM去学习(ALU)方法,这是一种多代理、无需重新训练、模型无关的LLM去学习方法,能够在有效去学习的同时保留实用性。我们的ALU框架通过涉及多个LLM代理来实现去学习,每个代理都针对去学习过程中的特定步骤进行设计,框架中的任何代理都不需要更新模型权重。用户可以轻松地按任何顺序请求任何一组去学习实例,ALU能够无缝适应并在实时中进行调整。这在不需对底层LLM模型进行任何更改的情况下实现。通过在已建立的标准基准(TOFU、WMDP、WPU)和破解技术(多射、目标遮蔽、其他语言)上进行广泛的实验,我们证明ALU在当前最先进的方法中作为最robust的LLM去学习框架表现出色,同时发生的常数时间成本较低。我们还强调,与现有的方法相比,ALU在大规模评估中表现出色。具体来说,ALU在多达1000个去学习目标上进行了评估,超过了所有先前提出的LLM去学习方法的评估范围。