LLM2D

摘要

arXiv:2411.19477v2 通知类型: replace-cross 摘要: 我们提出了一种简单而有原则的方法，这些方法为大型语言模型（LLMs）的测试时计算提供了可证明的缩放定律，只需要一个黑盒LLM和其他任何东西（例如，不需要外部验证器或奖励模型）即可实现最小的实施。 (i) 第一种方法是一种两阶段拔河式算法：给定一个输入问题，它首先生成多个候选解决方案，然后通过两两比较候选解决方案的淘汰赛，将它们聚合为最终输出。假设LLM能够以非零概率生成正确解，并且在比较一对正确解和错误解时表现优于随机猜测，我们理论上证明，随着测试时计算的增长，该算法的失败概率以指数或幂律（取决于具体的缩放方式）的形式衰减为零。 (ii) 第二种方法是一种两阶段联赛式算法，其中每个候选解决方案通过与其他多个对手的平均胜率来评估，而不是在失败后被一个对手淘汰。在与淘汰式算法要求相似但更为 robust 的技术假设下，我们理论上证明，随着测试时计算的增长，联赛式算法的失败概率也以指数形式衰减为零。通过在两个具有挑战性的基准测试GPQA和MMLU-Pro上进行广泛的实验，我们验证了所提出的理论，并展示了这两种算法卓越的缩放性能。