摘要
arXiv:2501.19306v2 通知类型: 新增
摘要: 近期大型语言模型(LLMs)的发展为利用测试时计算来增强复杂推理任务的表现创造了新的机会。然而,传统方法如重复采样并采用多数投票或奖励模型评分,在测试时计算量增加时往往会遇到回报递减的问题,并且还需要进行昂贵的任务特定奖励模型训练。在本文中,我们提出了自我增强测试时扩展(SETS),这是一种新颖的方法,利用了近期先进LLMs的自我验证和自我纠正能力以克服这些问题。SETS将采样、自我验证和自我纠正整合进一个统一的框架,能够实现高效的可扩展测试时计算,从而在复杂任务中提高能力。通过在具有挑战性的规划和推理基准上的广泛实验,与替代方案相比,我们证明了SETS在性能上取得了显著改进,并且具有更优越的测试时扩展规律。