摘要
降低生成有害和有毒输出的可能性是将大型语言模型(LLM)与人类价值观对齐时的重要任务。现有方法主要依赖于训练外部奖励模型(即另一个语言模型)或使用自生成数据微调 LLM 来影响输出结果。在本文中,我们表明 LLM 能够在不使用额外奖励模型或重新训练的情况下进行自我解毒。我们提出了“自约束的自回归采样 (SASA)”,这是一种用于减少 LLM 毒性的轻量级控制解码算法。SASA 利用 LLM 的上下文表示来学习以解析形式表征有毒与无毒输出的线性子空间。在逐个词元地自动完成响应时,SASA 通过调整自回归采样策略,动态地跟踪当前输出的边距,从而将生成引导远离有毒子空间。在不同规模和性质的 LLM 上进行评估,包括 Llama-3.1-Instruct(8B)、Llama-2(7B)和 GPT2-L 模型,以及使用 RealToxicityPrompts、BOLD 和 AttaQ 基准,SASA 显着提高了相对于原始模型生成的句子的质量,并达到了与最先进的解毒技术的相当性能,仅使用 LLM 的内部表示就显着降低了毒性水平。