摘要
arXiv:2409.13761v1 公告类型: 交叉 摘要: 随着大型语言模型(LLMs)的快速扩展,补充各种LLM查询所需的知识范围也在不断扩大。因此,在LLM推理中实现灵活且高效的新知识注入至关重要。存在三种高级选项:(i)将知识嵌入LLM的权重中(即微调),(ii)将知识作为LLM文本输入的一部分(即上下文学习),或(iii)在预填充阶段将新知识的KV缓存注入LLM。本文认为,尽管微调和上下文学习很流行,但使用KV缓存作为知识媒介可以同时实现更模块化的知识注入管理和更低成本、快速响应的LLM服务。为了实现这些优势,我们设想了一个知识交付网络(KDN),这是LLM服务中的一个新系统组件,它动态优化了KV缓存在LLM引擎和其他计算和存储资源之间的存储、传输和组合。我们相信,就像内容交付网络(CDNs)如Akamai通过高效的数据交付推动了互联网生态系统的成功一样,KDNs将通过其高效的知识交付成为LLM应用成功的关键。我们在https://github.com/LMCache/LMCache开源了一个KDN原型。