摘要
最近在检索增强生成方面的进展显著提升了问答系统的性能,特别是在事实性“5W”问题上。然而,这些系统在处理“1H”问题,尤其是“如何”问题时仍然面临重大挑战,而“如何”问题对于决策过程至关重要,需要动态的、逐步的答案。关键的限制在于流行的数据组织范式“块”,它将文档划分为固定大小的片段,破坏了上下文中的逻辑连贯性和联系。为了克服这一问题,本文提出了一种名为“线程”的新型数据组织范式,旨在使现有系统能够更有效地处理“如何”问题。具体而言,我们引入了一种新的知识粒度,称为“逻辑单元”,将文档转换为更结构化且松散互连的逻辑单元,并利用大型语言模型进行处理。在开放领域和工业环境中进行的大量实验表明,线程显著优于现有范式,将处理“如何”问题的成功率提高了 21% 到 33%。此外,线程在处理各种文档格式方面表现出高度适应性,大幅减少了知识库中的候选数量,并将所需信息量减少到块的四分之一,从而优化了效率和有效性。