LLM2D

摘要

arXiv:2502.12521v1 宣告类型: 新摘要: 我们考察了大规模语言模型（LLMs）在解决复杂任务中的推理和计划能力。最近推理时技术的进展表明，通过在推理过程中探索中间步骤，可以在不需要额外训练的情况下增强LLM的推理能力。值得注意的是，OpenAI的o1模型通过其新颖的多步推理和验证方法展示了令人鼓舞的性能。在此，我们探索了扩展推理时技术如何提高推理和计划能力，重点关注计算成本与性能之间的权衡。为此，我们构建了一个全面的基准测试，称为Sys2Bench，并对涵盖五个类别的十一个不同任务进行了广泛的实验，包括算术推理、逻辑推理、常识推理、算法推理和规划。我们的研究结果表明，单纯扩展推理时的计算存在局限性，因为在所有推理和规划任务中，并没有单一的推理时技术能始终表现出色。