LLM2D

摘要

arXiv:2504.14350v2 宣传类型：替换摘要：最近的研究已经展示了大语言模型（LLMs）在测试时扩展方面的非凡潜力。通过让模型在回答之前进行思考，它们能够在额外的推理计算下实现更高的准确性。然而，在许多实际场景中，模型在时间限制下使用，需要在一定的输出长度内给出答案。目前尚不清楚在这些约束下LLMs的推理能力是否仍然有效，以及如何在这种约束下保持其有效性。我们通过进行一项深入的经验研究来首次探讨这个问题。具体来说，我们在广泛的输出长度预算下测试了超过25种LLMs在常见推理数据集上的表现，并分析了推理准确性与模型类型、模型大小、提示风格等各种属性之间的相关性。我们还考虑了 token 预算与实际设备延迟预算之间的映射关系。结果显示了一些有趣的结果，这些结果与不受约束的情况下的情况不同，例如，在不同预算下，模型大小和提示的最佳选择会发生变化。这些发现为用户在实际延迟限制下部署LLMs提供了实用的指导。