LLM2D
强化学习与人类反馈中的准确性悖论:更优秀的奖励模型为何不一定会带来更优秀的语言模型
The Accuracy Paradox in RLHF: When Better Reward Models Don't Yield Better Language Models
作者: Yanjun Chen, Dawei Zhu, Yirong Sun, Xinghao Chen, Wei Zhang, Xiaoyu Shen
发布日期: 10/10/2024
arXiv ID: oai:arXiv.org:2410.06554v1

摘要

从人类反馈中进行强化学习显著地提升了自然语言处理,通过将语言模型与人类预期相一致。训练过程中使用的奖励模型的强度是这种一致性的关键因素。这项研究探讨了更强的奖励模型是否总是会导致更好的语言模型。本文通过使用 QA-FEEDBACK 数据集和基于 Longformer 的奖励模型在相关性、真实性和完整性任务上的实验,揭示了一个令人惊讶的悖论:使用中等准确度的奖励模型训练的语言模型优于那些由高准确度奖励模型引导的语言模型。这挑战了普遍认为更强的奖励模型总是会导致更好的语言模型的观点,并为未来研究模型性能的关键驱动因素以及如何选择最合适的奖励模型开辟了新途径。代码和更多细节可在 [https://github.com/EIT-NLP/AccuracyParadox-RLHF](https://github.com/EIT-NLP/AccuracyParadox-RLHF) 获取。