摘要
arXiv:2409.08479v2 公告类型: 替换-交叉 摘要: 检索增强生成(RAG)系统在信息检索中的性能受到所处理文档特征的显著影响。本研究显示,教科书的结构化性质、文章的简洁性以及小说的叙事复杂性,需要不同的检索策略。对多种文档分割方法的比较评估表明,递归字符分割器在保持上下文完整性方面优于基于令牌的分割器。引入了一种新的评估技术,利用开源模型生成全面的问题-答案对数据集,模拟现实检索场景以提高测试效率和指标可靠性。评估采用加权评分指标,包括序列匹配器、BLEU、METEOR和BERT分数,以评估系统的准确性和相关性。这种方法为评估RAG系统的精确性建立了精细标准,未来研究将聚焦于优化块和重叠大小,以提高检索的准确性和效率。