LLM2D
从粗到细过程奖励建模在数学推理中的应用
Coarse-to-Fine Process Reward Modeling for Mathematical Reasoning
作者: Yulan Hu, Sheng Ouyang, Yong Liu
发布日期: 2/18/2025
arXiv ID: oai:arXiv.org:2501.13622v2

摘要

arXiv:2501.13622v2 宣告类型: 替换 摘要:过程奖励模型(PRM)在数学推理任务中发挥着重要作用,需要高质量的监督过程数据。然而,我们观察到大型语言模型(LLMs)生成的推理步骤往往不能严格体现出逐步递增的信息,导致冗余,从而妨碍有效的推理。为了解决这一问题,我们提出了一种简单而有效的从粗到细的方法。而不是专注于冗余步骤的检测,我们的方法首先建立一个粗粒度的窗口,将相邻的推理步骤合并为统一的整体步骤。然后逐步减少窗口大小以提取细粒度的推理步骤,从而在不同粒度下进行数据收集进行训练。通过利用这种分层细化过程,\model 减轻冗余同时保留了重要的细粒度知识。在三个损失标准下的两个推理数据集上的广泛实验验证了 \model 的有效性和灵活性。