LLM2D
基于逻辑的数据组织范式:用于检索增强生成的问答系统
Thread: A Logic-Based Data Organization Paradigm for How-To Question Answering with Retrieval Augmented Generation
作者: Kaikai An, Fangkai Yang, Liqun Li, Junting Lu, Sitao Cheng, Shuzheng Si, Lu Wang, Pu Zhao, Lele Cao, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang, Qi Zhang, Baobao Chang
发布日期: 10/11/2024
arXiv ID: oai:arXiv.org:2406.13372v2

摘要

最近在检索增强生成方面的进展显著提升了问答系统的性能,特别是在事实性“5W”问题上。然而,这些系统在处理“1H”问题,尤其是“如何”问题时仍然面临重大挑战,而“如何”问题对于决策过程至关重要,需要动态的、逐步的答案。关键的限制在于流行的数据组织范式“块”,它将文档划分为固定大小的片段,破坏了上下文中的逻辑连贯性和联系。为了克服这一问题,本文提出了一种名为“线程”的新型数据组织范式,旨在使现有系统能够更有效地处理“如何”问题。具体而言,我们引入了一种新的知识粒度,称为“逻辑单元”,将文档转换为更结构化且松散互连的逻辑单元,并利用大型语言模型进行处理。在开放领域和工业环境中进行的大量实验表明,线程显著优于现有范式,将处理“如何”问题的成功率提高了 21% 到 33%。此外,线程在处理各种文档格式方面表现出高度适应性,大幅减少了知识库中的候选数量,并将所需信息量减少到块的四分之一,从而优化了效率和有效性。