LLM2D

摘要

arXiv:2502.01618v2 宣告类型: cross 摘要: 大型语言模型（LLMs）通过增加模型规模和/或数据实现了显著的性能提升。然而，最近的证据表明，这种方法的效果在递减，这促使我们在推理时间增加计算量。现有的推理时扩展方法通常使用奖励模型，将任务视为搜索问题，因此由于奖励模型中的近似误差，这种做法往往容易受到奖励作弊的影响。在本文中，我们相反将推理时扩展视为一种概率推理任务，并利用基于采样的技术来探索状态空间模型状态分布的典型集，而非直接优化其模态。我们提出了一种新颖的推理时扩展方法，通过将粒子方法的蒙特卡罗方法适应到此任务中。我们的实证评估表明，与我们的确定性搜索对应方法相比，我们的方法在各种具有挑战性的数学推理任务中的扩展率提高了4-16倍。利用我们的方法，我们展示了Qwen2.5-Math-1.5B-Instruct可以在仅4次滚动中超越GPT-4o的准确度，而Qwen2.5-Math-7B-Instruct仅在32次滚动中就能达到o1级别的准确度。我们的工作不仅提供了一种有效的推理时扩展方法，还连接了概率推理丰富的文献与LLMs的推理时扩展，以在未来的工作中开发更 robust 的算法。有关代码和更多信息，请参见 https://probabilistic-inference-scaling.github.io。