LLM2D

摘要

arXiv:2503.22137v1 宣布类型: 新摘要: 人类反馈强化学习（RLHF）已成为大型语言模型（LLMs）训练和对齐管道的基石。最近的进步，如直接偏好优化（DPO），简化了偏好学习的步骤。然而，收集偏好数据仍然是一个具有挑战性和昂贵的过程，通常需要专家注释。通过谨慎选择用于注释的数据点，这部分成本可以得到缓解。在此工作中，我们提出了一种积极学习方法，通过基于夏普比率的风险评估策略高效选择提示和偏好配对。为了解决注释前未知偏好这一挑战，我们的方法评估了所有潜在偏好注释的梯度，以评估它们对模型更新的影响。基于梯度的评估使得即使在注释结果未知的情况下也能进行数据点的风险评估。通过利用DPO损失的推导，我们为每个配对推导出一个闭合形式的表达式来计算这些夏普比率，确保我们的方法在可实践性和计算效率方面都具有优势。我们还介绍了我们方法的两种变体，每种变体对先验信息做了不同的假设。实验结果表明，在有限的人类偏好数据下，我们的方法在多个语言模型和真实世界数据集上，在赢得比率方面相比于所选完成度超过了基线高达5%。