摘要
arXiv:2411.19379v3 Announce Type: replace-cross
摘要:结合了注意力层的语言建模能力和循环层(例如,状态空间模型)的效率的混合模型,在大规模语言模型服务中实际支持长上下文方面得到了广泛应用。然而,这些模型的独特特性使得使用补充的效率优化(如前缀缓存)变得复杂,这些优化可以跳过请求间的冗余计算。最显著的是,它们对循环层使用就地状态更新,这阻止了在部分序列重叠时回滚缓存条目,反而要求只有完全匹配的缓存命中;结果是每个序列的缓存条目数量庞大,其中大多数缓存条目几乎没有重复利用的机会。我们提出了Marconi,这是第一个支持混合LLM高效前缀缓存的系统。Marconi的关键在于其新颖的准入和驱逐策略,这些策略不仅基于最近性,而且还基于(1)不同命中场景下其重复利用可能性的预测,以及(2)相对于内存足迹的计算节省。在多种工作负载和混合模型中,与最先进的前缀缓存系统相比,Marconi在令牌命中率上提高了最多34.4倍(TTFT降低了71.1%或617毫秒)。