LLM2D

摘要

arXiv:2504.14350v1 宣告类型: 新摘要: 最近的工作已经证明了大规模语言模型（LLMs）在测试时缩放方面的惊人潜力。通过让模型在回答问题之前先思考，它们能够在额外的推理计算下实现更高的准确性。然而，在许多实际场景中，模型往往处于时间约束之下，需要在特定的输出长度内给用户提供答案。目前尚不清楚在这些约束条件下，LLMs 的推理能力是否仍然有效，以及如何有效。我们通过对一个深入的实证研究来初步探讨这一问题。具体来说，我们在广泛的输出长度预算下测试了超过25种LLMs，并分析了推理准确性和各种特性（如模型类型、模型大小、提示风格等）之间的相关性。我们还考虑了令牌预算与实际设备延迟预算之间的映射关系。结果表明，在预算限制条件下，LLMs 的推理有一些与不受限制情况不同的有趣发现，例如，在不同预算下，最优的模型大小和提示选择会发生变化。这些发现为用户在实际延迟约束条件下部署LLMs 提供了实际指导。