摘要
arXiv:2504.19599v1 通知类型: 新
摘要: 训练后调整在优化和对齐大型语言模型以满足特定任务和人类偏好方面扮演着至关重要的角色。尽管最近在后训练技术方面的进展,如组相对策略优化(GRPO),通过增加相对奖励评分的采样来实现更好的性能,但这些方法往往受到训练不稳定性的困扰,这限制了它们的实用应用。为了应对这一挑战,我们提出了一种组方差策略优化(GVPO)。GVPO直接将KL约束奖励最大化分析解纳入其梯度权重中,确保与最优策略的对齐。该方法提供了直观的物理解释:其梯度反映了隐含奖励中隐式奖励中心距离与实际奖励中心距离的均方误差。GVPO提供了两个关键优势:(1)它保证了一个唯一的最优解,即KL约束奖励最大化目标;(2)它支持灵活的采样分布,避免了策略匹配和重要性采样的限制。通过结合理论保证和实际适应性,GVPO为可靠的和多功能的LLM后训练建立了新的范式。