摘要
arXiv:2504.01317v1 宣告类型: cross
摘要: 新发布的OpenAI-o1和DeepSeek-R1展示了测试时缩放可以显著提高模型性能,尤其是在逻辑推理等复杂任务中。常见的测试时缩放方法包括生成更多的思考链(CoTs)或更长的思考链,并进行自我修正。然而,尽管自我修正可以提高性能,但如果推理步骤已经正确,则可能会导致显著的标记浪费并降低思考链的可读性。为了证明大型语言模型(LLMs)可以在更精细的级别上修正错误,我们提出了适应性校正采样(AR-Sampling),它可以引导LLMs在适当的步骤进行自我修正。AR-Sampling利用了一个过程监督的奖励模型(PRM)作为验证器,并构建了触发句子来引导模型在适应性步骤级别的重新思考。通过在GSM8K和MATH500上的实验,表明我们的方法使模型能够在更精细的级别上重新思考,提高了解决方案的准确性,同时生成合理的额外标记数量。