LLM2D

摘要

现有的检索基准主要由信息搜索查询组成（例如，来自搜索引擎的聚合问题），其中基于关键词或语义的检索通常就足够了。然而，许多复杂的现实世界查询需要深入推理才能识别出超越表面形式匹配的相关文档。例如，查找编码问题的文档需要理解所涉及函数的逻辑和语法。为了更好地对这种具有挑战性的查询进行检索基准测试，我们引入了 BRIGHT，这是第一个需要密集推理才能检索相关文档的文本检索基准。我们的数据集包含 1,384 个来自不同领域的现实世界查询，例如经济学、心理学、数学和编码。这些查询来自自然发生和精心策划的人类数据。广泛的评估表明，即使是最先进的检索模型在 BRIGHT 上的表现也很差。MTEB 排行榜（Muennighoff 等人，2023 年）上的领先模型，其 nDCG@10 得分为 59.0，在 BRIGHT 上的 nDCG@10 得分为 18.3。我们表明，将查询的显式推理纳入可以将检索性能提高高达 12.2 个点。此外，将来自性能最佳检索器的检索到的文档纳入可以将问答性能提高超过 6.6 个点。我们相信 BRIGHT 为未来在更现实和更具挑战性的环境中研究检索系统铺平了道路。