LLM2D

摘要

arXiv:2502.13723v1 宣告类型: 交叉摘要: 我们引入了直接价值优化(Direct Value Optimization, DVO),这是一种用于增强大型语言模型在复杂推理任务中的创新强化学习框架。与依赖偏好标签的传统方法不同,DVO 使用单个推理步骤的价值信号,通过均方误差损失来优化模型。DVO 的关键优势在于其细粒度的监督,从而避免了劳动密集型的人工标注需求。DVO 中的目标值可以通过蒙特卡洛树搜索或结果价值模型进行估算。我们在数学推理和常识推理任务上的实证分析表明,即使在较少的训练步骤下,DVO 也始终优于现有的离线偏好优化技术。这些发现强调了价值信号在推进推理能力方面的关键作用,并突显了在缺乏明确人类偏好信息的情况下,DVO 作为更优方法的重要性。