LLM2D

摘要

arXiv:2502.14361v1 宣布类型: 新发现摘要: 尽管大规模语言模型（LLMs）在数学推理方面取得了显著进展，但过程奖励模型（PRMs）已开发用于评估推理步骤的逻辑有效性。然而，PRMs 仍然难以应对离群值分布（OOD）挑战。本文指出了关键的 OOD 问题，包括由于不同模型类型和规模的推理模式差异导致的步骤 OOD，以及由于训练数据和现实世界问题之间的数据集转移而产生的问题 OOD。为了解决这些问题，我们提出了检索增强过程奖励模型（RetrievalPRM），这是一种新颖的框架，旨在解决这些 OOD 问题。通过利用两阶段检索增强机制，RetrievalPRM 在暖启动阶段检索语义相似的问题和步骤，从而增强 PRM 的评估能力，并在不同模型和问题类型中提高泛化能力和推理一致性。我们广泛的实验表明，RetrievalPRM 在多个现实世界数据集上优于现有基准。我们的开源贡献包括一个检索增强的数据集、PRM 训练的调优框架以及 RetrievalPRM 模型，从而确立了 PRM 性能的新标准。