LLM2D

摘要

arXiv:2502.08922v1 宣布类型: 新摘要: 对大型语言模型（LLMs）进行与人类偏好的对齐对于它们在实际应用中的部署至关重要。近期关于自奖励语言模型的研究表明，LLM 可以使用其内部奖励模型（例如 LLM-as-a-Judge）\cite{yuanself} 来生成偏好数据，从而在无需大量人工标注的情况下提升对齐性能。然而，我们发现同一LLM内的不同内部奖励模型往往会生成不一致的偏好。这种不一致性对自动生成的偏好数据的可靠性提出了质疑，阻碍了整体对齐性能，并强调了进一步研究以确保可靠的和一致的对齐需求。为解决这一局限性，我们提出了自一致内部奖励（SCIR）这一新型框架，旨在提升训练过程中内部奖励模型之间的一致性。在每次训练步骤中，我们从多个预定义的内部奖励模型中收集偏好预测，并通过不一致性惩罚机制来确保一致性和可靠性，从而提高这些内部奖励模型的可靠性。我们仅选择具有一致预测的数据进行偏好优化，以确保偏好数据的质量。通过采用自一致内部奖励，我们的方法显著改善了LLM的对齐性能和奖励建模能力，相较于基线方法表现出了明显的优越性。