LLM2D

摘要

大型语言模型（LLMs）结合外部数据在完成现实世界任务方面展现了显著的能力。将外部数据整合到LLMs中的技术，如检索增强生成（RAG）和微调，正受到越来越多的关注和广泛应用。然而，在各个专业领域有效部署数据增强的LLMs面临着重大挑战。这些挑战涵盖了从检索相关数据和准确解读用户意图，到充分利用LLMs的推理能力来处理复杂任务的广泛问题。我们认为，数据增强的LLM应用并不存在一刀切的解决方案。在实践中，性能不佳往往源于未能正确识别任务的核心焦点，或因为任务本身需要结合多种能力，而这些能力必须被解耦以更好地解决。在这篇综述中，我们提出了一种RAG任务分类方法，根据所需外部数据的类型和任务的主要焦点，将用户查询分为四个层次：显式事实查询、隐式事实查询、可解释推理查询和隐藏推理查询。我们定义了这些查询层次，提供了相关数据集，并总结了应对这些挑战的关键挑战和最有效技术。最后，我们讨论了将外部数据整合到LLMs的三种主要形式：上下文、小模型和微调，突出了它们各自的优缺点以及适合解决的问题类型。这项工作的目的是帮助读者全面理解和分解构建LLM应用的数据需求和关键瓶颈，提供应对不同挑战的解决方案，并为系统开发此类应用提供指导。