摘要
arXiv:2501.13622v3 宣告类型: 替换
摘要: 过程奖励模型 (PRM) 在数学推理任务中起着重要作用,需要高质量的监督过程数据。然而,我们观察到大型语言模型 (LLMs) 生成的推理步骤往往未能表现出严格逐步的信息,导致冗余,这会妨碍有效的推理。为了解决这一问题,我们提出了一种简单而有效的逐层细化策略 CFPRM。我们的方法不侧重于冗余步骤的检测,而是首先建立一个粗粒度窗口,将相邻的推理步骤合并为统一的整体步骤。然后逐步减小窗口大小以提取细粒度的推理步骤,从而能够在多个粒度级别进行数据收集以供训练。通过利用这种层次细化过程,CFPRM 减少了冗余同时保留了必要的细粒度知识。在三个损失标准下的两个推理数据集上的广泛实验验证了 CFPRM 的有效性和灵活性。