摘要
arXiv:2505.02171v1 分类: 剪贴
摘要:文档分块对检索增强生成(RAG)的基本影响在于确定在索引前如何分割源材料。尽管有证据表明大型语言模型对检索数据的布局和结构敏感,但目前还没有框架来分析不同分块方法的影响。在本文中,我们介绍了一种新的方法论,用于在三个层次上定义分块过程的基本特征:内在段落属性、外在段落属性和段落与文档的一致性。我们提出了HOPE(全面段落评价),这是一种普适的自动评估指标,用于量化和聚合这些特征。在七个领域进行的经验评估表明,HOPE指标与多种RAG性能指标显著相关(p > 0.13),揭示了外在和内在段落属性重要性之间的差异。段落之间的语义独立对系统性能至关重要,在事实准确性方面可获得高达56.2%的性能提升,在答案准确性方面可获得21.1%的性能提升。相反,关于段落内保持概念统一的传统假设对性能影响甚微。这些发现为优化分块策略提供了可操作的见解,从而提高RAG系统设计的性能,以生成更准确的事实性回答。