LLM2D

摘要

arXiv:2504.00970v1 Announce Type: cross 摘要：大语言模型在处理长上下文时面临显著的计算和内存挑战。在推断过程中，关键值（KV）缓存的有效管理，即存储自回归生成的中间激活值，对于减少内存开销和提升计算效率至关重要。传统基于标记级别的高效KV缓存方法忽视了语义信息，独立地处理标记而不考虑它们之间的语义关系。另一方面，现有的保留语义的KV缓存管理方法往往会导致大量的内存使用和高时间延迟。为了解决这些限制，我们提出了一种新的基于句子级别的语义KV缓存方法——SentenceKV，旨在在保持语义连贯性的同时提高推断效率。在预填充阶段，SentenceKV根据句子级别的语义相似性对标记进行分组，将句子表示压缩为简洁的语义向量，并直接存储在GPU上，而单独的KV对则卸载到CPU。在解码过程中，SentenceKV通过选择性检索与预填充阶段语义向量和解码阶段查询之间语义相似的句子级KV条目来生成标记。这确保了高效且上下文准确的预测，最小化冗余或不相关数据加载到GPU内存，显著减少了内存开销，同时保持稳定推断延迟，即使是极长的上下文。在包括PG-19、LongBench和Needle-In-A-Haystack在内的基准测试中，SentenceKV在效率和内存使用方面显著优于现有方法，且不牺牲模型准确性。