LLM2D

摘要

arXiv:2502.01839v2 宣告类型: replace-cross 摘要：基于采样的搜索是一种利用推理时计算资源的简单范式，涉及生成多个候选响应并选择最佳响应——通常是由模型自我验证每个响应的正确性。在本文中，我们研究了控制基于采样的搜索的扩展趋势。我们的发现之一是，简单地扩展基于采样的搜索的最小实现版本，仅使用随机采样和直接自我验证，提供了一种实用的推理方法，例如，在流行基准测试中，这提高了Gemini v1.5 Pro的推理能力，使其超过o1-Preview。我们部分归因于基于采样的搜索的可扩展性到一种隐含的扩展现象，即在更大规模的响应池中进行采样会提高自我验证的准确性。我们还识别出了两个有用的原理，以提高基于推理时计算资源的自我验证能力：（1）在不同响应之间进行比较可以提供有关错误和幻觉位置的有用信号；（2）不同的模型输出风格在不同上下文中很有用——推理过程中的思维链很有用，但难于验证。我们还发现，尽管可以引发准确的验证，最前沿的模型在开箱即用的验证能力方面表现出令人惊讶的薄弱，我们引入了一个基准测试来衡量这些缺陷的进展。