LLM2D

摘要

arXiv:2411.19477v3 确认类型: replace-cross 摘要: 我们提出了两种简单、原理上明确且实用的算法，这些算法具有可证明的测试时计算扩展定律，适用于大型语言模型 (LLMs)。第一个算法是两阶段淘汰赛风格的算法：给定一个输入问题，它首先生成多个候选解决方案，然后通过淘汰锦标赛来汇总这些解决方案以生成最终输出。假设该LLM能够以非零概率生成正确的解决方案，并且相对于一对正确和不正确的解决方案，它能够表现得比随机猜测更好，我们理论上证明，随着该算法的测试时计算量增加，其失败概率会以指数级或幂律（具体方式取决于扩展方式）收敛至零。第二个算法是两阶段联赛风格的算法，在这种算法中，每个候选者是根据其多次对阵多个对手的平均胜率来进行评估的，而不是在输给单一对手后被直接淘汰。在类似的但更具鲁棒性的假设下，我们证明，随着测试时计算量的增加，其失败概率也会以指数级收敛至零。这两种算法只需要一个黑盒LLM（不需要验证器或奖励模型）即可实现，这使其适用于实际应用，并且容易适应不同的任务。通过使用各种不同的模型和数据集进行广泛的实验，我们验证了提出的理论，并展示了这两种算法的出色扩展特性。