LLM2D
SAEs $\textit{可以}$ 改善遗忘:动态稀疏自编码器在大语言模型中实现精确遗忘的边界条件
SAEs $\textit{Can}$ Improve Unlearning: Dynamic Sparse Autoencoder Guardrails for Precision Unlearning in LLMs
作者: Aashiq Muhamed, Jacopo Bonato, Mona Diab, Virginia Smith
发布日期: 4/14/2025
arXiv ID: oai:arXiv.org:2504.08192v1

摘要

arXiv:2504.08192v1 类别: cross 摘要: 机器卸载是一种有望通过从模型中移除不需要的知识来提高大语言模型安全性的方法。然而,现有的基于梯度的卸载方法面临着计算成本高、超参数不稳定、顺序卸载能力差、易受重学攻击、数据效率低以及缺乏可解释性等问题。虽然稀疏自编码器通过启用目标激活基础的卸载而具备改进这些方面的潜力,但先前的方法在性能上不如基于梯度的方法。本文展示了,与这些早期发现相反,当动态使用稀疏自编码器时,它可以显著改进卸载性能。我们提出了Dynamic DAE Guardrails(DSG),一种新颖的精确卸载方法,该方法利用了原则性的特征选择和动态分类器。我们的实验表明,DSG在卸载性能上显著优于领先的卸载方法,实现了更优的忘却-效用权衡。DSG解决了基于梯度的方法在卸载方面的关键缺陷——提供了增强的计算效率和稳定性,能够在顺序卸载中保持稳健的性能,对重学攻击具有更强的抵抗力,包括零样本设置在内的更好数据效率,以及更可解释的卸载。