摘要
arXiv:2502.09977v1 类别: cross
摘要: 有效地将外部知识整合到大型语言模型(LLMs)中对于增强其功能并满足实际需求至关重要。检索增强生成(RAG)通过检索最相关的片段到LLMs中提供了一种有效的方法。然而,LLMs的上下文窗口大小的进步提供了一种替代方法,引发了一个问题,即RAG是否仍然有必要有效处理外部知识。现有的一些研究在RAG和长上下文(LC)LLMs之间提供了不具结论性的比较,主要原因是基准设计的限制。在本文中,我们介绍了LaRA,这是一种全新的基准,专门设计用于严格比较RAG和LC LLMs。LaRA涵盖了四个实际问答任务类别和三种自然生成的长文本类型中的2,326个测试案例。通过对七种开源和四种私有LLMs的系统评估,我们发现RAG和LC之间的最优化选择取决于多种因素的复杂互动,包括模型的参数量、长文本能力、上下文长度、任务类型以及检索片段的特点。我们的发现为从业者提供了实用的指南,以有效利用RAG和LC方法在开发和部署LLM应用中。我们的代码和数据集可在以下链接获取:\href{https://github.com/likuanppd/LaRA}{https://github.com/likuanppd/LaRA}。