摘要
arXiv:2504.07109v1 通知类型: cross
摘要: 检索增强生成 (RAG) 通过整合外部知识来增强大型语言模型 (LLMs),从而提高了准确性和相关性。然而,随着检索规模的增长,扩展 RAG 管道仍然是计算上昂贵的。为了解决这一问题,我们引入了 OSCAR,这是一种新颖的查询依赖在线软压缩方法,能够在降低计算开销的同时保持性能。与传统的硬压缩方法不同,后者缩短检索到的文本,或通过离线映射文档到连续嵌入的软压缩方法,OSCAR 在推理时动态压缩检索到的信息,消除存储开销并实现更高的压缩率。此外,我们将 OSCAR 扩展用于同时进行重排序,进一步优化 RAG 管道的效率。我们的实验表明,与具有 1B 到 24B 参数的 LLM 的最佳性能相比,具有 2-5 倍推理加速,且几乎没有或没有准确性的损失。模型可在以下网址获得:https://huggingface.co/collections/naver/oscar-67d446a8e3a2551f57464295。