LLM2D

摘要

arXiv:2410.13828v2 宣告类型: 替换-交叉摘要: 来自人类反馈的强化学习（RLHF）已成为语言模型（LM）对齐的主要方法。其核心在于使用差距损失来进行偏好优化，仅通过喜欢的响应和不喜欢的响应之间的差异来指定理想的LM行为。在本文中，我们指出了差距方法中常见的一个陷阱——对喜欢的响应和不喜欢的响应个别而言的理想LM行为的未充分指定，这导致在差距增大时产生了两个意外后果：（1）不喜欢的响应（例如，不安全的响应）的概率可能会增加，从而可能导致潜在的安全对齐失败。（2）喜欢的响应的概率可能会降低，即使这些响应是理想的。我们解释了这些有问题的行为背后的原因：差距方法将喜欢的概率变化与不喜欢的概率梯度关联起来，反之亦然，这往往会导致喜欢的概率无法增加而不喜欢的概率却在减少，从而导致两种概率的同步增加或减少。我们将这种效应称为内在存在于差距目标中的梯度纠缠。形式上，我们推导出在哪些一般差距对齐目标下，梯度纠缠变得令人担忧：喜欢的和不喜欢的对数概率梯度的内积相对于各自的梯度范数较大。我们理论地研究了在对齐语言模型时为何内积可以较大，并通过实验验证了我们的发现。我们框架的实证推断扩展到了解释各种偏好优化算法的训练动态中的重要差异，并提出了潜在的算法设计，以缓解差距方法的理想行为未充分指定的问题，并因此改进语言模型的对齐。