LLM2D

摘要

arXiv:2504.09895v1 宣告类型: cross 摘要：大规模语言模型（LLMs）预期是有帮助的、无害的和诚实的。在各种对齐场景中，如一般人类偏好、安全性和信心对齐，基于二元偏好数据收集和奖励建模是资源密集但必要的，以实现人类偏好的转移。在本文中，我们探索了将抽取生成内容与其高质量参考答案之间的相似性作为LLM对齐的替代奖励函数的可能性。使用相似性作为奖励可以避免训练奖励模型，而收集一个参考答案可能比在有多项候选时构建二元偏好配对所需时间更少。具体而言，我们开发了RefAlign，这是一种通用的REINFORCE风格对齐算法，完全不需要参考模型和奖励模型。相反，RefAlign利用抽取生成内容与高质量参考答案之间的BERTScore作为代理奖励。除了通用的人类偏好优化，RefAlign可以通过结合相似性奖励和任务相关目标轻松应用于诸如安全性和信心对齐等多样化场景。在各种场景中，RefAlign在性能上与之前的对齐方法相当，同时具有很高的效率。