LLM2D

摘要

arXiv:2502.04357v1 宣告类型: cross 摘要: 大型语言模型（LLMs）通过强化学习（RL）在结构化任务中取得了显著进步，展示了在数学推理和代码生成方面的专业能力。然而，在诸如聊天机器人和内容生成等更广泛的应用领域中应用RL——这一过程称为基于人类反馈的强化学习（RLHF）——则面临着独特的挑战。在RLHF中，奖励模型至关重要，它们作为代理模型评估LLM输出与人类意图的对齐程度。尽管取得了进展，但奖励模型的开发仍受到计算密集型训练、评估成本高以及因此导致的可复制性差等问题的阻碍。我们主张在奖励模型研究中使用基于嵌入的输入作为加速解决方案，以应对这些挑战。通过利用嵌入进行奖励建模，我们可以增强可复制性、减少对硬件的计算需求、提高训练稳定性，并显著降低训练和评估成本，从而在这一活跃的研究领域中促进公平和高效的比较。我们展示了使用基于嵌入的奖励模型重现现有奖励模型集成研究的案例研究。我们探讨了未来研究的方向，旨在为更安全和有效的LLM部署做出贡献。