摘要
arXiv:2502.08922v1 宣布类型: 新
摘要: 对大型语言模型(LLMs)进行与人类偏好的对齐对于它们在实际应用中的部署至关重要。近期关于自奖励语言模型的研究表明,LLM 可以使用其内部奖励模型(例如 LLM-as-a-Judge)\cite{yuanself} 来生成偏好数据,从而在无需大量人工标注的情况下提升对齐性能。然而,我们发现同一LLM内的不同内部奖励模型往往会生成不一致的偏好。这种不一致性对自动生成的偏好数据的可靠性提出了质疑,阻碍了整体对齐性能,并强调了进一步研究以确保可靠的和一致的对齐需求。为解决这一局限性,我们提出了自一致内部奖励(SCIR)这一新型框架,旨在提升训练过程中内部奖励模型之间的一致性。在每次训练步骤中,我们从多个预定义的内部奖励模型中收集偏好预测,并通过不一致性惩罚机制来确保一致性和可靠性,从而提高这些内部奖励模型的可靠性。我们仅选择具有一致预测的数据进行偏好优化,以确保偏好数据的质量。通过采用自一致内部奖励,我们的方法显著改善了LLM的对齐性能和奖励建模能力,相较于基线方法表现出了明显的优越性。