摘要
大型语言模型(LLMs)结合外部数据在完成现实世界任务方面展现了显著的能力。将外部数据整合到LLMs中的技术,如检索增强生成(RAG)和微调,正受到越来越多的关注和广泛应用。然而,在各个专业领域有效部署数据增强的LLMs面临着重大挑战。这些挑战涵盖了从检索相关数据和准确解读用户意图,到充分利用LLMs的推理能力来处理复杂任务的广泛问题。我们认为,数据增强的LLM应用并不存在一刀切的解决方案。在实践中,性能不佳往往源于未能正确识别任务的核心焦点,或因为任务本身需要结合多种能力,而这些能力必须被解耦以更好地解决。在这篇综述中,我们提出了一种RAG任务分类方法,根据所需外部数据的类型和任务的主要焦点,将用户查询分为四个层次:显式事实查询、隐式事实查询、可解释推理查询和隐藏推理查询。我们定义了这些查询层次,提供了相关数据集,并总结了应对这些挑战的关键挑战和最有效技术。最后,我们讨论了将外部数据整合到LLMs的三种主要形式:上下文、小模型和微调,突出了它们各自的优缺点以及适合解决的问题类型。这项工作的目的是帮助读者全面理解和分解构建LLM应用的数据需求和关键瓶颈,提供应对不同挑战的解决方案,并为系统开发此类应用提供指导。