摘要
arXiv:2504.14350v2 宣传类型:替换
摘要:最近的研究已经展示了大语言模型(LLMs)在测试时扩展方面的非凡潜力。通过让模型在回答之前进行思考,它们能够在额外的推理计算下实现更高的准确性。然而,在许多实际场景中,模型在时间限制下使用,需要在一定的输出长度内给出答案。目前尚不清楚在这些约束下LLMs的推理能力是否仍然有效,以及如何在这种约束下保持其有效性。我们通过进行一项深入的经验研究来首次探讨这个问题。具体来说,我们在广泛的输出长度预算下测试了超过25种LLMs在常见推理数据集上的表现,并分析了推理准确性与模型类型、模型大小、提示风格等各种属性之间的相关性。我们还考虑了 token 预算与实际设备延迟预算之间的映射关系。结果显示了一些有趣的结果,这些结果与不受约束的情况下的情况不同,例如,在不同预算下,模型大小和提示的最佳选择会发生变化。这些发现为用户在实际延迟限制下部署LLMs提供了实用的指导。