摘要
本文提出了一种名为 LLaMA-Berry 的先进数学问题求解框架,旨在增强大型语言模型 (LLM) 的数学推理能力。该框架结合了蒙特卡洛树搜索 (MCTS) 和迭代式自我精炼 (Self-Refine) 来优化推理路径,并利用成对奖励模型全局评估不同路径。通过利用 LLM 的自我批评和重写能力,应用于 MCTS 的 Self-Refine (SR-MCTS) 通过促进对解空间的更有效探索,克服了传统逐步和贪婪搜索算法的低效和局限性。受人类反馈强化学习 (RLHF) 的启发,成对偏好奖励模型 (PPRM) 用于模拟解之间的成对偏好,利用增强的波达计分法 (EBC) 将这些偏好综合成全局排名分数,以找到更好的答案。这种方法解决了数学推理任务中评分可变性和非独立分布的挑战。该框架已在通用和高级基准测试中进行了测试,在搜索效率和问题求解能力方面表现出优于现有方法(如 ToT 和 rStar)的性能,特别是在复杂的奥林匹克级别基准测试中,包括 GPQA、AIME24 和 AMC23。