LLM2D

摘要

arXiv:2503.20807v1 交叉公告类型摘要：在一些任务特定的数据集上微调大型语言模型（LLMs）是LLMs的主要用途之一。然而，经验上观察到，这种增强能力的方法不可避免地会牺牲安全性，这种现象在LLM微调中也被称为安全-能力权衡。本文提出了一种理论框架，用于理解在两种主要的安全意识LLM微调策略中，安全与能力之间的相互作用，为数据相似性、上下文重叠和对齐损失景观的影响提供了新的见解。我们的理论结果界定了LLM微调中安全-能力权衡的基本限制，这些结果也在数值实验中得到了验证。