LLM2D
OSCAR:在线软压缩和重 ranking
OSCAR: Online Soft Compression And Reranking
作者: Maxime Louis, Thibault Formal, Herv\'e Dejean, St\'ephane Clinchant
发布日期: 4/11/2025
arXiv ID: oai:arXiv.org:2504.07109v1

摘要

arXiv:2504.07109v1 通知类型: cross 摘要: 检索增强生成 (RAG) 通过整合外部知识来增强大型语言模型 (LLMs),从而提高了准确性和相关性。然而,随着检索规模的增长,扩展 RAG 管道仍然是计算上昂贵的。为了解决这一问题,我们引入了 OSCAR,这是一种新颖的查询依赖在线软压缩方法,能够在降低计算开销的同时保持性能。与传统的硬压缩方法不同,后者缩短检索到的文本,或通过离线映射文档到连续嵌入的软压缩方法,OSCAR 在推理时动态压缩检索到的信息,消除存储开销并实现更高的压缩率。此外,我们将 OSCAR 扩展用于同时进行重排序,进一步优化 RAG 管道的效率。我们的实验表明,与具有 1B 到 24B 参数的 LLM 的最佳性能相比,具有 2-5 倍推理加速,且几乎没有或没有准确性的损失。模型可在以下网址获得:https://huggingface.co/collections/naver/oscar-67d446a8e3a2551f57464295。