LLM2D
时间到了!输出长度限制下大语言模型推理能力的实证研究
Time Up! An Empirical Study of LLM Reasoning Ability Under Output Length Constraint
作者: Yi Sun, Han Wang, Jiaqiang Li, Jiacheng Liu, Xiangyu Li, Hao Wen, Huiwen Zheng, Yan Liang, Yuanchun Li, Yunxin Liu
发布日期: 4/22/2025
arXiv ID: oai:arXiv.org:2504.14350v1

摘要

arXiv:2504.14350v1 宣告类型: 新 摘要: 最近的工作已经证明了大规模语言模型(LLMs)在测试时缩放方面的惊人潜力。通过让模型在回答问题之前先思考,它们能够在额外的推理计算下实现更高的准确性。然而,在许多实际场景中,模型往往处于时间约束之下,需要在特定的输出长度内给用户提供答案。目前尚不清楚在这些约束条件下,LLMs 的推理能力是否仍然有效,以及如何有效。我们通过对一个深入的实证研究来初步探讨这一问题。具体来说,我们在广泛的输出长度预算下测试了超过25种LLMs,并分析了推理准确性和各种特性(如模型类型、模型大小、提示风格等)之间的相关性。我们还考虑了令牌预算与实际设备延迟预算之间的映射关系。结果表明,在预算限制条件下,LLMs 的推理有一些与不受限制情况不同的有趣发现,例如,在不同预算下,最优的模型大小和提示选择会发生变化。这些发现为用户在实际延迟约束条件下部署LLMs 提供了实际指导。