LLM2D

摘要

arXiv:2504.19754v1 Announce Type: cross 摘要：检索增强生成（RAG）已成为通过将大型语言模型（LLMs）的输出与外部知识资源相结合来提升其性能的一种变革性方法。然而，一个关键问题仍然存在：如何有效地在LLM的输入限制内管理大量的外部知识？传统方法通过将外部文档划分为较小的固定大小片段来解决这一问题。虽然这种方法缓解了输入限制，但它常常导致语境片段化，从而导致检索不完整和生成连贯性降低。为了克服这些不足，引入了两种先进的技术——延迟分块和上下文检索，两者都旨在保持全局语境。尽管它们具有潜力，但它们的比较优势和局限性仍然不清楚。本研究对延迟分块和上下文检索进行了严谨的分析，评估了它们在优化RAG系统方面的有效性和效率。我们的结果表明，上下文检索在保持语义连贯性方面更为有效，但需要更多的计算资源。相比之下，延迟分块提供了更高的效率，但往往会牺牲相关性和完整性。