摘要
arXiv:2503.22233v1 类别: cross
摘要: 本文提出了熵驱动统一过程奖励模型 (EDU-PRM),这是一种新型框架,在大幅降低训练成本的同时,近似达到了最先进的过程监督性能。EDU-PRM 引入了一种由熵引导的动态步长分割机制,使用 logit 分布熵动态定位生成 tokens 时的高不确定性区域。这种自我评估能力能够在无需手动细粒度注解的情况下提供精确的步骤级反馈,解决了过程监督中的一个关键挑战。在 Qwen2.5-72B 模型上使用仅 7,500 个由 EDU-PRM 生成的训练查询,其准确度与完整的 Qwen2.5-72B-PRM(71.1% vs. 71.6%)接近,相较于先前方法实现了 98% 的查询成本降低。这项工作确立了 EDU-PRM 作为一种用于可扩展过程奖励模型训练的高效方法。