LLM2D

摘要

arXiv:2504.04215v1 模型压缩类型: 多领域交叉摘要：大规模语言模型的迅速发展激发了对模型压缩的兴趣，以此来提高模型的可访问性和实用性。尽管有大量的研究从安全性的角度探索模型压缩，但发现安全性对齐的模型在压缩后往往会失去一些可信度。同时，机制可解释性领域得到了广泛关注，并取得了显著进展，例如识别出一个在残差流中起作用的方向，该方向能够介导不同模型架构下的拒绝行为。在本文中，我们通过研究拒绝机制来调查压缩模型的安全性，并采用一种新颖的可解释性驱动视角来评估模型安全性。此外，利用我们可解释性分析的见解，我们提出了一种轻量级、计算效率高的方法，可以在不牺牲模型性能或实用性的情况下增强压缩模型的安全性。