摘要
arXiv:2411.02481v3 宣布类型: replace-cross
摘要:偏好调整依赖于高质量的人类偏好数据,这些数据通常成本高且耗时。在本文中,我们介绍了Dr.SoW(强于弱的密度比),这是一种成本效益高的方法,通过利用现成的LLM进行偏好数据标注,从而消除对人工标注的依赖。Dr.SoW 使用一个更好地对齐和一个不太对齐的LLM之间的对数密度比作为奖励信号。我们在221种不同的LLM配对中评估了Dr.SoW,并实证地发现配对模型之间的性能差距与奖励信号的质量之间存在强烈的关联。这一见解为选择用于数据标注的LLM提供了实用的指导方针。
此外,我们介绍了一个端到端的工作流程,该工作流程根据用户查询领域自定义奖励函数。不进行微调,该流程在领域特定评估中提高了准确性。使用一对Mistral-7B模型,Dr.SoW 实现了82.6的RewardBench得分,超过了同一模型类别中训练的最佳奖励函数,并且在安全性(91.0)和推理(88.0)领域展示了与最先进的模型(SoTA)相当的表现。此外,我们使用Dr.SoW标注的数据对Llama-3-8B-Instruct进行了偏好调整。我们的方法推动Llama-3-8B在ArenaHard上获得了37.4%(+15.1%)的胜率,在控制长度的AlpacaEval 2.0上获得了40.7%(+17.8%)的胜率。