LLM2D
BRIGHT:一个富有挑战性的用于推理密集型检索的基准测试
BRIGHT: A Realistic and Challenging Benchmark for Reasoning-Intensive Retrieval
作者: Hongjin Su, Howard Yen, Mengzhou Xia, Weijia Shi, Niklas Muennighoff, Han-yu Wang, Haisu Liu, Quan Shi, Zachary S. Siegel, Michael Tang, Ruoxi Sun, Jinsung Yoon, Sercan O. Arik, Danqi Chen, Tao Yu
发布日期: 3/27/2025
arXiv ID: oai:arXiv.org:2407.12883v4

摘要

arXiv:2407.12883v4 提取类型: replace-cross 摘要: 现有的检索基准主要由信息查询组成(例如,来自搜索引擎的汇总问题),在这种情况下,基于关键字或语义的检索通常就足够了。然而,许多复杂的现实世界查询需要深入的推理来识别远远超出表面匹配的相关文档。例如,查找编程问题的文档需要理解涉及的功能的逻辑和语法。为了更好地在这些具有挑战性的查询上测试检索,我们引入了 BRIGHT,这是第一个需要进行深入推理以检索相关文档的文本检索基准。我们的数据集包含 1,384 条来自各个领域的现实世界查询,涵盖经济、心理学、数学和编码等领域。这些查询源自自然发生和精心筛选的人类数据。广泛评估表明,即使是最先进的检索模型在 BRIGHT 上的表现也很差。MEDEVIB 领先排行榜(Muennighoff 等人,2023 年)上的 SFR-Embedding-Mistral(Meng 等人,2024 年),在 MTEB 上取得 59.0 nDCG@10 的成绩,但在 BRIGHT 上仅取得 18.3 的 nDCG@10。我们展示了在查询中明确地进行推理可以提高检索性能多达 12.2 分。此外,从表现最好的检索器检索到的文章还能提升问题回答性能。我们认为 BRIGHT 为未来在更现实和更具挑战性的环境下研究检索系统铺平了道路。