LLM2D

摘要

arXiv:2502.13516v1 通知类型: 新摘要: 最近，增强大型语言模型（LLMs）的数值和逻辑推理能力已成为研究热点。现有方法面临一些限制：推理阶段的技术（例如，链式思维）依赖于提示的选择和预训练的知识；基于句子的监督微调（SFT）和直接偏好优化（DPO）在步骤级的数学正确性方面遇到困难，并依赖于更强模型的蒸馏或人工标注；而强化学习（RL）方法会产生高GPU内存成本和不稳定的训练。为了解决这些问题，我们提出了一种结合过程偏好学习（动态价值边际）的自我训练框架（SPPD）。SPPD 利用基于过程的状态转换马尔可夫决策过程（MDP）和贝尔曼优化方程来在步骤级偏好优化中推导出动态价值边际，这种方法通过基于树的自我采样来利用模型响应，而无需从其他模型进行任何蒸馏。此外，我们理论证明，在奖励约束下，SPPD 等同于在线策略梯度方法。在7B规模模型上的实验显示，SPPD 在领域内和领域外的数学标准测验中都展现出优越的性能。我们已开源我们的代码，链接为 \href{https://anonymous.4open.science/r/SSDPO-D-DCDD}{https://anonymous.4open.science/r/SPPD-DCDD}。