LLM2D

摘要

arXiv:2502.12468v1 类别: cross 摘要: LLM-as-a-Judge范式在评估生成内容方面显示出潜力，但在程序设计等需要推理的场景中缺乏可靠性。受推理模型进步及放大定律转变的启发，我们开创性地将测试时计算引入LLM-as-a-Judge中，提出了一种资源高效且基于系统2思维框架的代码正确性评估方法——MCTS-Judge。MCTS-Judge利用蒙特卡洛树搜索（MCTS）将问题分解为更简单的多视角评估。通过结合基于当前轨迹中历史行动的自我评估和基于先前展开滚动的树的上置信界的选择节点策略，MCTS-Judge平衡了全局优化和当前轨迹的精细调优。我们进一步设计了一种高精度、单元测试级别的奖励机制，以鼓励大型语言模型（LLM）进行逐行分析。在三个基准测试和五种LLM上的广泛实验表明，MCTS-Judge的有效性，使其基础模型的准确性从41%提高到80%，并以3倍 fewer tokens超过了o1系列模型。进一步的评估验证了其在逻辑、分析、全面性和整体质量方面的优越推理轨迹，同时揭示了LLM-as-a-Judge范式在测试时的放大定律。