摘要
arXiv:2504.13171v1 宣告类型: 新
摘要: 扩大量化推理计算已成为使大规模语言模型 (LLMs) 能够解决复杂问题的关键因素,但这会带来高延迟和推理成本。我们引入了“睡眠时间”计算,这使模型能够在提出查询之前“在线”考虑上下文:通过预测用户可能会问什么问题并预先计算有用的量,我们可以在推理时大大减少计算需求。为了证明我们方法的有效性,我们对两个推理任务ystateful GSM-Symbolic 和 Stateful AIME进行了修改版本。我们发现,“睡眠时间”计算可以将达到相同准确性的推理时间计算量减少约 5 倍,在 Stateful GSM-Symbolic 中减少幅度为 5 倍,在 Stateful AIME 中减少幅度为 5 倍。此外,我们引入了 Multi-Query GSM-Symbolic,这是通过每个上下文包含多个相关查询来扩展 GSM-Symbolic 。通过使用 Multi-Query GSM-Symbolic 在相同上下文中对相关查询进行“睡眠时间”计算的分摊,我们可以将每查询的平均成本降低 2.5 倍。然后,我们进行额外的分析以了解“睡眠时间”计算何时最有效,发现用户查询的可预测性与“睡眠时间”计算的有效性高度相关。最后,我们对将“睡眠时间”计算应用于现实中的代理性软件工程师 (SWE) 任务进行了案例研究。