LLM2D

摘要

降低生成有害和有毒输出的可能性是将大型语言模型（LLM）与人类价值观对齐时的重要任务。现有方法主要依赖于训练外部奖励模型（即另一个语言模型）或使用自生成数据微调 LLM 来影响输出结果。在本文中，我们表明 LLM 能够在不使用额外奖励模型或重新训练的情况下进行自我解毒。我们提出了“自约束的自回归采样 (SASA)”，这是一种用于减少 LLM 毒性的轻量级控制解码算法。SASA 利用 LLM 的上下文表示来学习以解析形式表征有毒与无毒输出的线性子空间。在逐个词元地自动完成响应时，SASA 通过调整自回归采样策略，动态地跟踪当前输出的边距，从而将生成引导远离有毒子空间。在不同规模和性质的 LLM 上进行评估，包括 Llama-3.1-Instruct（8B）、Llama-2（7B）和 GPT2-L 模型，以及使用 RealToxicityPrompts、BOLD 和 AttaQ 基准，SASA 显着提高了相对于原始模型生成的句子的质量，并达到了与最先进的解毒技术的相当性能，仅使用 LLM 的内部表示就显着降低了毒性水平。