LLM2D

摘要

arXiv:2410.09302v2 宣布类型: 替换交叉摘要：强化学习（RL）在使大规模语言模型（LLMs）与人类偏好保持一致以及提高其执行复杂任务的能力方面发挥着至关重要的作用。然而，当前的方法要么由于使用了多个模型和广泛的在线采样进行训练而需要大量的计算资源（例如PPO），要么被构架为多臂老虎机问题（例如DPO、DRO），这些方法在多步推理任务，如数学问题解决和涉及长链条思考的复杂推理方面经常表现不佳。为了克服这些限制，我们引入了直接Q函数优化（DQO），将其响应生成过程构架为马尔可夫决策过程（MDP），并利用软 actor-critic (SAC) 架构直接优化由语言模型参数化的Q函数。DQO的MDP构架相比基于多臂老虎机的方法提供了结构上的优势，使其能够更有效地监督过程。在两个数学问题解决数据集GSM8K和MATH上的实验结果表明，DQO在性能上优于以往的方法，确立了其作为语言模型对齐领域的有前途的离线强化学习方法的地位。