LLM2D

摘要

arXiv:2502.09977v1 类别: cross 摘要: 有效地将外部知识整合到大型语言模型（LLMs）中对于增强其功能并满足实际需求至关重要。检索增强生成（RAG）通过检索最相关的片段到LLMs中提供了一种有效的方法。然而，LLMs的上下文窗口大小的进步提供了一种替代方法，引发了一个问题，即RAG是否仍然有必要有效处理外部知识。现有的一些研究在RAG和长上下文（LC）LLMs之间提供了不具结论性的比较，主要原因是基准设计的限制。在本文中，我们介绍了LaRA，这是一种全新的基准，专门设计用于严格比较RAG和LC LLMs。LaRA涵盖了四个实际问答任务类别和三种自然生成的长文本类型中的2,326个测试案例。通过对七种开源和四种私有LLMs的系统评估，我们发现RAG和LC之间的最优化选择取决于多种因素的复杂互动，包括模型的参数量、长文本能力、上下文长度、任务类型以及检索片段的特点。我们的发现为从业者提供了实用的指南，以有效利用RAG和LC方法在开发和部署LLM应用中。我们的代码和数据集可在以下链接获取：\href{https://github.com/likuanppd/LaRA}{https://github.com/likuanppd/LaRA}。