LLM2D

摘要

arXiv:2501.13622v2 宣告类型: 替换摘要：过程奖励模型（PRM）在数学推理任务中发挥着重要作用，需要高质量的监督过程数据。然而，我们观察到大型语言模型（LLMs）生成的推理步骤往往不能严格体现出逐步递增的信息，导致冗余，从而妨碍有效的推理。为了解决这一问题，我们提出了一种简单而有效的从粗到细的方法。而不是专注于冗余步骤的检测，我们的方法首先建立一个粗粒度的窗口，将相邻的推理步骤合并为统一的整体步骤。然后逐步减少窗口大小以提取细粒度的推理步骤，从而在不同粒度下进行数据收集进行训练。通过利用这种分层细化过程，\model 减轻冗余同时保留了重要的细粒度知识。在三个损失标准下的两个推理数据集上的广泛实验验证了 \model 的有效性和灵活性。