LLM2D
HawkBench:探究RAG方法在分层信息检索任务中的鲁棒性
HawkBench: Investigating Resilience of RAG Methods on Stratified Information-Seeking Tasks
作者: Hongjin Qian, Zheng Liu, Chao Gao, Yankai Wang, Defu Lian, Zhicheng Dou
发布日期: 2/20/2025
arXiv ID: oai:arXiv.org:2502.13465v1

摘要

arXiv:2502.13465v1 类别: cross 摘要: 在现实世界的信息寻求场景中,用户的需求是动态和多样的,这就要求RAG系统表现出适应性韧性。为了全面评估当前RAG方法的韧性,我们介绍了HawkBench,这是一个由人类标注的、多领域的基准,旨在严格评估各类任务类型下的RAG性能。通过基于信息寻求行为对任务进行分层,HawkBench提供了一种系统性的评估方法,考察了RAG系统适应多样用户需求的效果。 与现有的基准不同,现有基准主要集中在特定的任务类型(主要是事实查询)上,并依赖于不同的知识库,而HawkBench提供了:(1) 系统性的任务分层来涵盖广泛的查询类型,包括事实查询和推理查询,(2) 在所有任务类型中集成多领域的语料库以减轻语料库偏见,以及(3) 严格的注释以进行高质量的评估。 HawkBench包括1,600个高质量的测试样本,这些样本在领域和任务类型上均匀分布。通过使用这个基准,我们评估了代表性的RAG方法,并从答案质量和响应延迟的角度分析了它们的性能。我们的发现表明,为了提高RAG的通用性,需要采用动态任务策略,集成决策、查询解释和全局知识理解。我们认为HawkBench作为一个关键基准,有助于推动RAG方法的韧性,并提高它们实现通用信息寻求的能力。