LLM2D

摘要

arXiv:2504.07109v1 通知类型: cross 摘要: 检索增强生成 (RAG) 通过整合外部知识来增强大型语言模型 (LLMs)，从而提高了准确性和相关性。然而，随着检索规模的增长，扩展 RAG 管道仍然是计算上昂贵的。为了解决这一问题，我们引入了 OSCAR，这是一种新颖的查询依赖在线软压缩方法，能够在降低计算开销的同时保持性能。与传统的硬压缩方法不同，后者缩短检索到的文本，或通过离线映射文档到连续嵌入的软压缩方法，OSCAR 在推理时动态压缩检索到的信息，消除存储开销并实现更高的压缩率。此外，我们将 OSCAR 扩展用于同时进行重排序，进一步优化 RAG 管道的效率。我们的实验表明，与具有 1B 到 24B 参数的 LLM 的最佳性能相比，具有 2-5 倍推理加速，且几乎没有或没有准确性的损失。模型可在以下网址获得：https://huggingface.co/collections/naver/oscar-67d446a8e3a2551f57464295。