摘要
arXiv:2504.08756v1 基准类型:跨领域
摘要:现有的RAG基准经常会忽视查询难度,导致对简单问题的性能被夸大,评估结果不可靠。一个稳健的基准数据集必须满足三个关键标准:质量、多样性以及难度,这捕捉了基于跳转的推理复杂性和支持证据的分布。本文提出了一种新的数据集合成框架MHTS(多跳树结构),通过利用多跳树结构系统地控制多跳推理的复杂性,生成逻辑上相连、多段落的问题。我们精细的难度估算公式与RAG系统的总体性能指标之间表现出强烈的关联性,验证了其在评估检索和答案生成能力方面的有效性。通过确保高质量、多样性和难度控制的问题,我们的方法提高了RAG评估和基准测试的能力。