LLM2D

摘要

arXiv:2411.19379v3 Announce Type: replace-cross 摘要：结合了注意力层的语言建模能力和循环层（例如，状态空间模型）的效率的混合模型，在大规模语言模型服务中实际支持长上下文方面得到了广泛应用。然而，这些模型的独特特性使得使用补充的效率优化（如前缀缓存）变得复杂，这些优化可以跳过请求间的冗余计算。最显著的是，它们对循环层使用就地状态更新，这阻止了在部分序列重叠时回滚缓存条目，反而要求只有完全匹配的缓存命中；结果是每个序列的缓存条目数量庞大，其中大多数缓存条目几乎没有重复利用的机会。我们提出了Marconi，这是第一个支持混合LLM高效前缀缓存的系统。Marconi的关键在于其新颖的准入和驱逐策略，这些策略不仅基于最近性，而且还基于（1）不同命中场景下其重复利用可能性的预测，以及（2）相对于内存足迹的计算节省。在多种工作负载和混合模型中，与最先进的前缀缓存系统相比，Marconi在令牌命中率上提高了最多34.4倍（TTFT降低了71.1%或617毫秒）。