摘要
arXiv:2502.08657v1 安全对齐类型: 交叉
摘要: 最近的AI代理,如ChatGPT和LLaMA,主要依靠指令调优和强化学习来校准大型语言模型(LLMs)的输出,以符合人类意图,确保输出是无害和有帮助的。现有的方法严重依赖高质量正面样本的手动标注,同时也面临着标签噪声和受青睐和不受欢迎响应数据之间细微差别的问题。然而,易于获取的具有明确安全差别的有毒样本通常会被过滤掉,这去除了有助于LLM安全对齐的有价值的负面参考。为了解决这一问题,我们提出PT-ALIGN,这是一种新型的安全自我对齐方法,通过自动精炼正面和有毒样本来减少人类监督,并进行细粒度的双重指令调优。正面样本是非害的内容,而有毒样本故意包含极有害的内容,作为新的监督信号。具体而言,我们利用LLM本身迭代生成和精炼训练实例,仅探索不到50个人标注。然后,我们使用两种损失,即最大似然估计(MLE)和细粒度的反可能性训练(UT),共同学习以增强LLM的安全性。MLE损失鼓励LLM在正面样本的基础上最大化生成非害内容。相反,细粒度的UT损失根据负面样本在词级指导下LLM尽量减少有害词汇的输出,从而引导模型解耦安全与有效性,将其导向更安全的微调目标,增加生成有用和可靠内容的可能性。在9个流行的开源LLM上的实验表明,我们的PT-ALIGN在安全性校准方面有效,同时保持了可比的有用性和帮助性。