LLM2D

摘要

arXiv:2502.01839v1 采样类型: 横跨摘要：基于采样的搜索是一种利用测试时计算的简单范式，涉及生成多个候选答案并选择最佳的——通常通过对每个答案进行正确性验证来实现。在本文中，我们研究了控制基于采样的搜索的可扩展性趋势。我们的发现之一是，仅仅通过增加仅使用随机采样和直接自验证的极简实现方式进行扩展，可以带来持续的性能提升，例如，使Gemini v1.5 Pro模型在流行基准上的推理能力超过了o1-Preview。我们部分将基于采样的搜索的可扩展性归因于隐式的可扩展性现象，即对更多回答的采样反过来提高了验证的准确性。我们还识别了两条提高自验证能力的有用原则：（1）比较不同的回答可以提供关于错误和幻觉位置的有用信号，（2）不同的模型输出样式在不同的上下文中是有用的——思维链在推理中很有用，但验证起来却很困难。我们还发现，尽管可以通过准确的验证被激发出来，前沿模型显示出令人惊讶的薄弱的开箱即用验证能力，并引入了一个基准来衡量对这些不足的进展。