LLM2D

摘要

arXiv:2502.01618v3 宣布类型: replace-cross 摘要: 大型语言模型（LLMs）通过增加模型规模和/或数据量实现了显著的性能提升。然而，最近的实证证据表明，这种方法带来的收益正在减少，这促使人们在推理阶段增加计算量。现有的推理时扩展方法通常使用奖励模型，将任务视为搜索问题，这通常会因为在奖励模型中的近似误差而导致奖励作弊的问题。在本文中，我们相反地将推理时的扩展视为一个概率推理任务，并利用基于采样的技术探索状态空间模型在近似似然下的状态分布的典型集，而不是直接优化其模态。我们提出了一种新颖的推理时间扩展方法，通过调整粒子蒙特卡洛方法来实现这一任务。我们的实证评估表明，与我们确定性搜索的对应方法相比，我们的方法在各种具有挑战性的数学推理任务上具有4-16倍更好的扩展率。通过我们这种方法，我们展示了Qwen2.5-Math-1.5B-Instruct可以在仅4次迭代中超越GPT-4o的准确度，而Qwen2.5-Math-7B-Instruct可以在仅32次迭代中扩展到o1级准确度。我们的研究不仅提出了一种有效的推理时间扩展方法，还将概率推理的丰富文献与LLMs的推理时间扩展联系起来，为未来开发更稳健的算法奠定了基础。代码、视频及相关信息可在https://probabilistic-inference-scaling.github.io获取。