LLM2D

摘要

arXiv:2501.19306v1 宣布类型: 新颖摘要: 近期大规模语言模型（LLMs）的进步为通过利用测试时计算来增强复杂推理任务的性能创造了新的机会。然而，诸如重复抽样和多数投票或奖励模型评分等传统方法，在测试时计算量增加时往往会面临收益递减的问题，同时还需要进行代价高昂的任务特定奖励模型训练。在本文中，我们提出了自我增强测试时扩展（SETS），这是一种创新方法，利用了最近先进LLMs的自我验证和自我校正能力，以克服这些局限性。SETS将抽样、自我验证和自我校正整合到一个统一框架中，能够实现复杂任务中高效且可扩展的测试时计算，以提高能力。通过在具有挑战性的规划和推理基准测试上的广泛实验，与替代方案相比，我们证明了SETS实现了显著的性能改进和更为有利的测试时扩展规律。