摘要
arXiv:2502.14361v1 宣布类型: 新发现
摘要: 尽管大规模语言模型(LLMs)在数学推理方面取得了显著进展,但过程奖励模型(PRMs)已开发用于评估推理步骤的逻辑有效性。然而,PRMs 仍然难以应对离群值分布(OOD)挑战。本文指出了关键的 OOD 问题,包括由于不同模型类型和规模的推理模式差异导致的步骤 OOD,以及由于训练数据和现实世界问题之间的数据集转移而产生的问题 OOD。为了解决这些问题,我们提出了检索增强过程奖励模型(RetrievalPRM),这是一种新颖的框架,旨在解决这些 OOD 问题。通过利用两阶段检索增强机制,RetrievalPRM 在暖启动阶段检索语义相似的问题和步骤,从而增强 PRM 的评估能力,并在不同模型和问题类型中提高泛化能力和推理一致性。我们广泛的实验表明,RetrievalPRM 在多个现实世界数据集上优于现有基准。我们的开源贡献包括一个检索增强的数据集、PRM 训练的调优框架以及 RetrievalPRM 模型,从而确立了 PRM 性能的新标准。