LLM2D

摘要

arXiv:2407.13399v3 宣布类型: 替换摘要: 基于人类反馈的强化学习（RLHF）等语言模型对齐方法在语言模型能力方面取得了令人印象深刻的进展，但它们受到一种广泛观察到的现象——过度优化的限制，这种现象会导致语言模型在对齐过程中性能下降。随着模型根据离线奖励模型优化性能，它会过度拟合准确性偏差并偏离数据覆盖的首选响应。为了防止这种分布转移，现有的离线对齐方法广泛采用KL-正则化，但过度优化仍然损害了性能。我们通过理论分析这些经验观察的来源，首先展示了KL-正则化不足以防止过度拟合，然后提出了以下问题：是否存在一种有效的算法，可以证明不会受到过度优化的影响？我们通过一种新的离线对齐算法——$\chi^2$偏好优化（$\chi$PO）来解决这个问题。$\chi$PO仅是对直接偏好优化（DPO；Rafailov等，2023年）进行了一个简单的改动，涉及修改DPO目标中的对数链接函数。尽管这一改动很小，但$\chi$PO通过使用$\chi^2$散度——量化不确定性更加有效的正则化方法——隐含地实施了不确定性面前的悲观原则，并可证明地减轻了过度优化，基于单一策略的集中性取得了样本复杂性保证——这是离线强化学习中的最高标准。$\chi$PO的简洁性及其强大的保证使其成为第一个证明不受过度优化影响的实用且通用的离线对齐算法。