LLM2D

摘要

arXiv:2503.01141v2 通告类型: replace-cross 摘要：链式思考提示已成为一种强大的技术，使大型语言模型（LLMs）能够解决复杂推理任务。然而，这些推理链可能非常冗长，引发了关于效率的担忧。针对这一问题，最近的研究工作通过简单的提示策略（例如，“简洁地回答”）试图减少响应长度。在这项工作中，我们首次系统研究了推理长度与模型性能之间的关系，跨越了多种压缩指令（例如，“使用10个词或更少”或“移除所有标点符号”）。通过这种方式，我们发现推理长度与准确率之间的普遍权衡存在于即使非常不同的推理链中。我们展示了这种权衡源自每个任务在问题层面的尖锐阈值行为：每个任务都有一个固有的“令牌复杂度”——完成问题所需的最小令牌数。我们展示如何令牌复杂度使得我们能够计算准确率-压缩权衡的信息论上限，发现基于提示的压缩策略远远达不到这些理论上限。这表明可能存在显著的改进空间，我们的框架提供了一个基准，以帮助研究人员评估推理效率的进步。同时，我们的工作也突出了自适应压缩的重要性——为较容易的问题提供较短的回答，并展示了令牌复杂度是一个衡量这一能力的有用工具。