LLM2D

摘要

arXiv:2504.13171v1 宣告类型: 新摘要: 扩大量化推理计算已成为使大规模语言模型 (LLMs) 能够解决复杂问题的关键因素，但这会带来高延迟和推理成本。我们引入了“睡眠时间”计算，这使模型能够在提出查询之前“在线”考虑上下文：通过预测用户可能会问什么问题并预先计算有用的量，我们可以在推理时大大减少计算需求。为了证明我们方法的有效性，我们对两个推理任务ystateful GSM-Symbolic 和 Stateful AIME进行了修改版本。我们发现，“睡眠时间”计算可以将达到相同准确性的推理时间计算量减少约 5 倍，在 Stateful GSM-Symbolic 中减少幅度为 5 倍，在 Stateful AIME 中减少幅度为 5 倍。此外，我们引入了 Multi-Query GSM-Symbolic，这是通过每个上下文包含多个相关查询来扩展 GSM-Symbolic 。通过使用 Multi-Query GSM-Symbolic 在相同上下文中对相关查询进行“睡眠时间”计算的分摊，我们可以将每查询的平均成本降低 2.5 倍。然后，我们进行额外的分析以了解“睡眠时间”计算何时最有效，发现用户查询的可预测性与“睡眠时间”计算的有效性高度相关。最后，我们对将“睡眠时间”计算应用于现实中的代理性软件工程师 (SWE) 任务进行了案例研究。