LLM2D

摘要

arXiv:2504.00294v1 宣传类型：跨领域摘要：推理时的扩展可以增强大规模语言模型（LLMs）在需要逐步解决问题的复杂问题上的推理能力。虽然延长生成的草稿簿长度在数学任务中已被证明是有效的，但此方法在其他任务上的更广泛影响还不是很清楚。在本文中，我们探讨了九个最先进的模型和八个具有挑战性的任务（包括数学和STEM推理、日历规划、NP难问题、导航和空间推理）上的扩展方法的优势和局限性。我们通过涉及重复模型调用的评估协议，将传统模型（例如GPT-4o）与为推理时扩展而微调的模型（例如o1）进行了比较，这些评估协议可以独立进行也可以顺序进行并提供反馈。这些评估逼近了每个模型的下限和上限性能以及未来的性能改进潜力，无论是通过增强训练还是多模型推理系统。我们广泛的经验分析揭示出，推理时扩展的优势在不同任务上有所不同，并且随着问题复杂度的增加而减弱。此外，简单地使用更多标记并不一定能够在这些具有挑战性的条件下转化为更高的准确性。使用完美验证器的多个独立运行的传统模型的结果表明，对于某些任务，这些模型可以达到接近当今最先进推理模型平均性能的水平。但对于其他任务，即使在极高的扩展范围下，也仍存在显著的性能差距。令人鼓舞的是，所有模型在使用完美验证器或强烈反馈进一步扩展推理时都显示出显著的提升，这表明未来的改进潜力巨大。