摘要
arXiv:2411.19477v3 确认类型: replace-cross
摘要: 我们提出了两种简单、原理上明确且实用的算法,这些算法具有可证明的测试时计算扩展定律,适用于大型语言模型 (LLMs)。第一个算法是两阶段淘汰赛风格的算法:给定一个输入问题,它首先生成多个候选解决方案,然后通过淘汰锦标赛来汇总这些解决方案以生成最终输出。假设该LLM能够以非零概率生成正确的解决方案,并且相对于一对正确和不正确的解决方案,它能够表现得比随机猜测更好,我们理论上证明,随着该算法的测试时计算量增加,其失败概率会以指数级或幂律(具体方式取决于扩展方式)收敛至零。第二个算法是两阶段联赛风格的算法,在这种算法中,每个候选者是根据其多次对阵多个对手的平均胜率来进行评估的,而不是在输给单一对手后被直接淘汰。在类似的但更具鲁棒性的假设下,我们证明,随着测试时计算量的增加,其失败概率也会以指数级收敛至零。这两种算法只需要一个黑盒LLM(不需要验证器或奖励模型)即可实现,这使其适用于实际应用,并且容易适应不同的任务。通过使用各种不同的模型和数据集进行广泛的实验,我们验证了提出的理论,并展示了这两种算法的出色扩展特性。