LLM2D

摘要

arXiv:2504.01317v1 宣告类型: cross 摘要: 新发布的OpenAI-o1和DeepSeek-R1展示了测试时缩放可以显著提高模型性能，尤其是在逻辑推理等复杂任务中。常见的测试时缩放方法包括生成更多的思考链(CoTs)或更长的思考链，并进行自我修正。然而，尽管自我修正可以提高性能，但如果推理步骤已经正确，则可能会导致显著的标记浪费并降低思考链的可读性。为了证明大型语言模型(LLMs)可以在更精细的级别上修正错误，我们提出了适应性校正采样(AR-Sampling)，它可以引导LLMs在适当的步骤进行自我修正。AR-Sampling利用了一个过程监督的奖励模型(PRM)作为验证器，并构建了触发句子来引导模型在适应性步骤级别的重新思考。通过在GSM8K和MATH500上的实验，表明我们的方法使模型能够在更精细的级别上重新思考，提高了解决方案的准确性，同时生成合理的额外标记数量。