LLM2D
推理友好型模型与混合注意力机制
Inference-Friendly Models With MixAttention
发布日期: 9/24/2024
arXiv ID: oai:arXiv.org:2409.15012v1

摘要

arXiv:2409.15012v1 公告类型: 交叉 摘要: 在现代语言模型中,键值(KV)缓存的大小在决定最大上下文长度和支持推理期间并发请求数量方面起着关键作用。KV缓存的大小与注意力头数量和处理的令牌数量成比例增长,导致长输入的内存消耗增加和推理速度变慢。在这项工作中,我们探索了MixAttention的使用,这是一种与Character.AI发布的博客密切相关的模型架构修改。MixAttention结合了滑动窗口注意力,其中只有一小部分最近的令牌存储在KV缓存中,以及跨层的KV缓存共享。我们的实验表明,MixAttention显著减少了内存使用并提高了推理速度,同时在不牺牲短上下文和长上下文任务的模型性能的情况下。我们还探索了该架构的各种配置,确定了在保持评估指标质量的同时优化资源效率的配置。