LLM2D
SPPD: 自训练与使用动态价值Margin的过程偏好学习
SPPD: Self-training with Process Preference Learning Using Dynamic Value Margin
作者: Hao Yi, Qingyang Li, Yulan Hu, Fuzheng Zhang, Di Zhang, Yong Liu
发布日期: 2/20/2025
arXiv ID: oai:arXiv.org:2502.13516v1

摘要

arXiv:2502.13516v1 通知类型: 新 摘要: 最近,增强大型语言模型(LLMs)的数值和逻辑推理能力已成为研究热点。现有方法面临一些限制:推理阶段的技术(例如,链式思维)依赖于提示的选择和预训练的知识;基于句子的监督微调(SFT)和直接偏好优化(DPO)在步骤级的数学正确性方面遇到困难,并依赖于更强模型的蒸馏或人工标注;而强化学习(RL)方法会产生高GPU内存成本和不稳定的训练。为了解决这些问题,我们提出了一种结合过程偏好学习(动态价值边际)的自我训练框架(SPPD)。SPPD 利用基于过程的状态转换马尔可夫决策过程(MDP)和贝尔曼优化方程来在步骤级偏好优化中推导出动态价值边际,这种方法通过基于树的自我采样来利用模型响应,而无需从其他模型进行任何蒸馏。此外,我们理论证明,在奖励约束下,SPPD 等同于在线策略梯度方法。在7B规模模型上的实验显示,SPPD 在领域内和领域外的数学标准测验中都展现出优越的性能。我们已开源我们的代码,链接为 \href{https://anonymous.4open.science/r/SSDPO-D-DCDD}{https://anonymous.4open.science/r/SPPD-DCDD}。