摘要
arXiv:2504.04215v1 模型压缩类型: 多领域交叉
摘要:大规模语言模型的迅速发展激发了对模型压缩的兴趣,以此来提高模型的可访问性和实用性。尽管有大量的研究从安全性的角度探索模型压缩,但发现安全性对齐的模型在压缩后往往会失去一些可信度。同时,机制可解释性领域得到了广泛关注,并取得了显著进展,例如识别出一个在残差流中起作用的方向,该方向能够介导不同模型架构下的拒绝行为。在本文中,我们通过研究拒绝机制来调查压缩模型的安全性,并采用一种新颖的可解释性驱动视角来评估模型安全性。此外,利用我们可解释性分析的见解,我们提出了一种轻量级、计算效率高的方法,可以在不牺牲模型性能或实用性的情况下增强压缩模型的安全性。