摘要
arXiv:2504.19276v1 宣告类型: cross
摘要:高质量的偏好数据对于通过偏好学习使基础模型与人类价值观对齐至关重要。然而,手动标注此类数据通常既耗时又成本高昂。最近的方法常常采用自我奖励的方法,目标模型生成并标注自己的偏好数据,但这可能导致不准确,因为奖励模型与目标模型共享权重,从而放大了固有的偏差。为了解决这些问题,我们提出了Anyprefer框架,旨在合成高质量的偏好数据以对齐目标模型。Anyprefer将数据合成过程建模为一个合作的双玩家马尔可夫游戏,其中目标模型和判别模型协同工作。在此过程中,引入了一系列外部工具,以帮助判别模型准确地奖励目标模型的回复,从而减轻奖励过程中的偏差。此外,还引入了一种反馈机制优化两种模型的提示,增强协作并提高数据质量。合成的数据编入一个新的偏好数据集Anyprefer-V1,包含58,000个高质量的偏好对。广泛的实验显示,Anyprefer显著提高了目标模型在四个主要应用中的对齐性能,涵盖了21个数据集,分别在五个自然语言生成数据集中实现了平均18.55%的改进,在九个视觉语言理解数据集中实现了3.66%的改进,在三个医学图像分析数据集中实现了30.05%的改进,在四个视知觉控制任务中实现了16.00%的改进。