LLM2D

摘要

arXiv:2502.01618v1 类型: cross 摘要: 大型语言模型（LLMs）通过扩大模型规模和/或数据实现了显著的性能提升。然而，近期的证据表明，这种方法的效果正逐渐减弱，促使人们在推断时间扩展计算量。现有的推断时间扩展方法，通常使用奖励模型，将任务视为一个搜索问题，但由于奖励模型中近似误差的影响，这种方法往往会受到奖励作弊的困扰。在本文中，我们相反地将推断时间扩展视为一项概率推断任务，并利用采样技术探索状态空间模型在近似似然下状态分布的典型集，而不是直接优化其模式。我们提出了一种新的推断时间扩展方法，通过将粒子蒙特卡洛方法适应到这一任务。我们的实证评估表明，与我们的确定性搜索方法相比，我们的方法在各种具有挑战性的数学推理任务上的扩展速率提高了4-16倍。使用我们的方法，我们展示了Qwen2.5-Math-1.5B-Instruct可以在仅4次滚动后超越GPT-4o的准确度，而Qwen2.5-Math-7B-Instruct仅需32次滚动即可达到o1级别的准确度。我们的工作不仅提供了一种有效的推断时间扩展方法，还连接了概率推断丰富的文献与LLMs的推断时间扩展，为未来的工作开发更稳健的算法奠定了基础。代码和更多信息可在https://probabilistic-inference-scaling.github.io 获取。