LLM2D

摘要

arXiv:2504.12328v1 宣告类型: cross 摘要：奖励模型（RM）在增强大型语言模型（LLM）方面展示了令人印象深刻的潜力，因为RM可以作为人类偏好的代理，为LLM在各种任务中的行为提供指导信号。在本文中，我们从偏好收集、奖励建模和应用的角度提供了对相关研究的全面概述。接下来，我们介绍了奖励模型的应用，并讨论了评估基准。此外，我们深入分析了该领域存在的挑战，并探讨了潜在的研究方向。本文旨在为初学者提供对奖励模型的全面介绍，并促进未来的研究所用的资源可在GitHub上公开获取<footnote>https://github.com/JLZhong23/awesome-reward-models</footnote>。