LLM2D
FreshStack: 构建用于评估技术文档检索的现实基准
FreshStack: Building Realistic Benchmarks for Evaluating Retrieval on Technical Documents
作者: Nandan Thakur, Jimmy Lin, Sam Havens, Michael Carbin, Omar Khattab, Andrew Drozdov
发布日期: 4/18/2025
arXiv ID: oai:arXiv.org:2504.13128v1

摘要

arXiv:2504.13128v1 交叉类型公告 摘要:我们介绍了 FreshStack,这是一个可复用的框架,用于从社区提出的问题和答案自动构建信息检索(IR)评估基准。FreshStack 执行以下步骤:(1) 从代码和技术文档中自动收集语料库,(2) 从社区提出的问题和答案生成知识片段,以及 (3) 在融合检索技术并采用混合架构的基础上进行知识片段级支持,检索文档。我们使用 FreshStack 构建了五个专注于快速发展的、近期的和小众话题的数据集,以确保任务具有足够的挑战性。在 FreshStack 上,现有的检索模型在所有五个主题上均显著落后于Oracle方法,表明在提高IR质量方面还有很大的改进空间。此外,我们发现有两个主题的再排序器并未明显提高第一阶段检索准确性。我们希望 FreshStack 能够促进未来构建现实、可扩展且不受污染的IR和RAG评估基准的工作。FreshStack 数据集可在:https://fresh-stack.github.io 获得。