LLM2D
大型语言模型微调中的基础安全能力权衡
Fundamental Safety-Capability Trade-offs in Fine-tuning Large Language Models
作者: Pin-Yu Chen, Han Shen, Payel Das, Tianyi Chen
发布日期: 3/28/2025
arXiv ID: oai:arXiv.org:2503.20807v1

摘要

arXiv:2503.20807v1 交叉公告类型 摘要:在一些任务特定的数据集上微调大型语言模型(LLMs)是LLMs的主要用途之一。然而,经验上观察到,这种增强能力的方法不可避免地会牺牲安全性,这种现象在LLM微调中也被称为安全-能力权衡。本文提出了一种理论框架,用于理解在两种主要的安全意识LLM微调策略中,安全与能力之间的相互作用,为数据相似性、上下文重叠和对齐损失景观的影响提供了新的见解。我们的理论结果界定了LLM微调中安全-能力权衡的基本限制,这些结果也在数值实验中得到了验证。