LLM2D

摘要

从人类反馈中进行强化学习显著地提升了自然语言处理，通过将语言模型与人类预期相一致。训练过程中使用的奖励模型的强度是这种一致性的关键因素。这项研究探讨了更强的奖励模型是否总是会导致更好的语言模型。本文通过使用 QA-FEEDBACK 数据集和基于 Longformer 的奖励模型在相关性、真实性和完整性任务上的实验，揭示了一个令人惊讶的悖论：使用中等准确度的奖励模型训练的语言模型优于那些由高准确度奖励模型引导的语言模型。这挑战了普遍认为更强的奖励模型总是会导致更好的语言模型的观点，并为未来研究模型性能的关键驱动因素以及如何选择最合适的奖励模型开辟了新途径。代码和更多细节可在 [https://github.com/EIT-NLP/AccuracyParadox-RLHF](https://github.com/EIT-NLP/AccuracyParadox-RLHF) 获取。