LLM2D
大语言模型推理时计算:基准和见解
Inference-Time Computations for LLM Reasoning and Planning: A Benchmark and Insights
作者: Shubham Parashar, Blake Olson, Sambhav Khurana, Eric Li, Hongyi Ling, James Caverlee, Shuiwang Ji
发布日期: 2/19/2025
arXiv ID: oai:arXiv.org:2502.12521v1

摘要

arXiv:2502.12521v1 宣告类型: 新 摘要: 我们考察了大规模语言模型(LLMs)在解决复杂任务中的推理和计划能力。最近推理时技术的进展表明,通过在推理过程中探索中间步骤,可以在不需要额外训练的情况下增强LLM的推理能力。值得注意的是,OpenAI的o1模型通过其新颖的多步推理和验证方法展示了令人鼓舞的性能。在此,我们探索了扩展推理时技术如何提高推理和计划能力,重点关注计算成本与性能之间的权衡。为此,我们构建了一个全面的基准测试,称为Sys2Bench,并对涵盖五个类别的十一个不同任务进行了广泛的实验,包括算术推理、逻辑推理、常识推理、算法推理和规划。我们的研究结果表明,单纯扩展推理时的计算存在局限性,因为在所有推理和规划任务中,并没有单一的推理时技术能始终表现出色。