LLM2D

摘要

arXiv:2501.13622v3 宣告类型: 替换摘要: 过程奖励模型 (PRM) 在数学推理任务中起着重要作用，需要高质量的监督过程数据。然而，我们观察到大型语言模型 (LLMs) 生成的推理步骤往往未能表现出严格逐步的信息，导致冗余，这会妨碍有效的推理。为了解决这一问题，我们提出了一种简单而有效的逐层细化策略 CFPRM。我们的方法不侧重于冗余步骤的检测，而是首先建立一个粗粒度窗口，将相邻的推理步骤合并为统一的整体步骤。然后逐步减小窗口大小以提取细粒度的推理步骤，从而能够在多个粒度级别进行数据收集以供训练。通过利用这种层次细化过程，CFPRM 减少了冗余同时保留了必要的细粒度知识。在三个损失标准下的两个推理数据集上的广泛实验验证了 CFPRM 的有效性和灵活性。