LLM2D

摘要

本文提出了一种名为 LLaMA-Berry 的先进数学问题求解框架，旨在增强大型语言模型 (LLM) 的数学推理能力。该框架结合了蒙特卡洛树搜索 (MCTS) 和迭代式自我精炼 (Self-Refine) 来优化推理路径，并利用成对奖励模型全局评估不同路径。通过利用 LLM 的自我批评和重写能力，应用于 MCTS 的 Self-Refine (SR-MCTS) 通过促进对解空间的更有效探索，克服了传统逐步和贪婪搜索算法的低效和局限性。受人类反馈强化学习 (RLHF) 的启发，成对偏好奖励模型 (PPRM) 用于模拟解之间的成对偏好，利用增强的波达计分法 (EBC) 将这些偏好综合成全局排名分数，以找到更好的答案。这种方法解决了数学推理任务中评分可变性和非独立分布的挑战。该框架已在通用和高级基准测试中进行了测试，在搜索效率和问题求解能力方面表现出优于现有方法（如 ToT 和 rStar）的性能，特别是在复杂的奥林匹克级别基准测试中，包括 GPQA、AIME24 和 AMC23。