LLM2D

摘要

最近在检索增强生成方面的进展显著提升了问答系统的性能，特别是在事实性“5W”问题上。然而，这些系统在处理“1H”问题，尤其是“如何”问题时仍然面临重大挑战，而“如何”问题对于决策过程至关重要，需要动态的、逐步的答案。关键的限制在于流行的数据组织范式“块”，它将文档划分为固定大小的片段，破坏了上下文中的逻辑连贯性和联系。为了克服这一问题，本文提出了一种名为“线程”的新型数据组织范式，旨在使现有系统能够更有效地处理“如何”问题。具体而言，我们引入了一种新的知识粒度，称为“逻辑单元”，将文档转换为更结构化且松散互连的逻辑单元，并利用大型语言模型进行处理。在开放领域和工业环境中进行的大量实验表明，线程显著优于现有范式，将处理“如何”问题的成功率提高了 21% 到 33%。此外，线程在处理各种文档格式方面表现出高度适应性，大幅减少了知识库中的候选数量，并将所需信息量减少到块的四分之一，从而优化了效率和有效性。