LLM2D

摘要

arXiv:2412.15904v2 公告类型: 替换摘要: 步骤级奖励模型(SRM)可以通过过程监督或基于强化学习的步骤级偏好对齐显著提高数学推理性能。SRM的表现至关重要，因为它们作为关键的指导原则，确保推理过程中的每一步都与期望的结果对齐。最近，使用蒙特卡洛树搜索(MCTS)进行自动步骤级偏好注释的AlphaZero-like方法已被证明尤其有效。然而，SRM成功背后的精确机制仍然 largely 未被探索。为了解决这一缺口，本研究深入探讨了SRM的反直觉方面，特别是侧重于基于MCTS的方法。我们的发现揭示了去除思维过程的自然语言描述对SRM效果的影响微乎其微。此外，我们展示了SRMs在评估数学语言中的复杂逻辑连贯性方面表现出色，但在自然语言方面存在困难。这些见解为理解驱动有效步骤级奖励建模的核心要素提供了全面的理解。通过揭示这些机制，本研究为开发更高效和集约化的SRM提供了宝贵指导，这可以通过聚焦数学推理的关键部分来实现。