LLM2D
基于熵驱动的不确定性的过程奖励建模
Process Reward Modeling with Entropy-Driven Uncertainty
作者: Lang Cao, Renhong Chen, Yingtian Zou, Chao Peng, Wu Ning, Huacong Xu, Qian Chen, Yuxian Wang, Peishuo Su, Mofan Peng, Zijie Chen, Yitong Li
发布日期: 3/31/2025
arXiv ID: oai:arXiv.org:2503.22233v1

摘要

arXiv:2503.22233v1 类别: cross 摘要: 本文提出了熵驱动统一过程奖励模型 (EDU-PRM),这是一种新型框架,在大幅降低训练成本的同时,近似达到了最先进的过程监督性能。EDU-PRM 引入了一种由熵引导的动态步长分割机制,使用 logit 分布熵动态定位生成 tokens 时的高不确定性区域。这种自我评估能力能够在无需手动细粒度注解的情况下提供精确的步骤级反馈,解决了过程监督中的一个关键挑战。在 Qwen2.5-72B 模型上使用仅 7,500 个由 EDU-PRM 生成的训练查询,其准确度与完整的 Qwen2.5-72B-PRM(71.1% vs. 71.6%)接近,相较于先前方法实现了 98% 的查询成本降低。这项工作确立了 EDU-PRM 作为一种用于可扩展过程奖励模型训练的高效方法。