LLM2D

摘要

arXiv:2502.13465v1 类别: cross 摘要: 在现实世界的信息寻求场景中，用户的需求是动态和多样的，这就要求RAG系统表现出适应性韧性。为了全面评估当前RAG方法的韧性，我们介绍了HawkBench，这是一个由人类标注的、多领域的基准，旨在严格评估各类任务类型下的RAG性能。通过基于信息寻求行为对任务进行分层，HawkBench提供了一种系统性的评估方法，考察了RAG系统适应多样用户需求的效果。与现有的基准不同，现有基准主要集中在特定的任务类型（主要是事实查询）上，并依赖于不同的知识库，而HawkBench提供了：(1) 系统性的任务分层来涵盖广泛的查询类型，包括事实查询和推理查询，(2) 在所有任务类型中集成多领域的语料库以减轻语料库偏见，以及(3) 严格的注释以进行高质量的评估。 HawkBench包括1,600个高质量的测试样本，这些样本在领域和任务类型上均匀分布。通过使用这个基准，我们评估了代表性的RAG方法，并从答案质量和响应延迟的角度分析了它们的性能。我们的发现表明，为了提高RAG的通用性，需要采用动态任务策略，集成决策、查询解释和全局知识理解。我们认为HawkBench作为一个关键基准，有助于推动RAG方法的韧性，并提高它们实现通用信息寻求的能力。