摘要
arXiv:2502.02789v1 类别:交叉
摘要:提高首个标记生成时间(TTFT)是现代大型语言模型(LLM)推理引擎中一个基础且重要的目标。由于直接优化TTFT会导致更高的最大QPS,并满足许多关键应用程序的要求。然而,提升TTFT是一个众所周知的挑战,因为它完全是计算量限制的,并且性能瓶颈从自我注意转移到了MLP部分。我们提出了一种名为SpecPrefill的无需训练的框架,该框架基于以下见解加速了查询的推理TTFT,无论是长上下文还是中等长度的查询:LLM在仅提供精心选择的提示标记子集的情况下,仍然能够保持质量。SpecPrefill的核心在于使用一个轻量级模型,根据上下文推测出重要性的局部标记。这些标记连同必要的位置信息,随后被传递给主模型进行处理。我们使用一系列多样化的任务对该框架进行了评估,并在一个实际的端到端设置和详细的基准测试中进行了性能改进的基准测试。SpecPrefill能够将Llama-3.1-405B-Instruct-FP8在实际下游任务中的最大端到端QPS提升多达7倍,并在基准测试中实现TTFT改善7.66倍。