LLM2D

摘要

arXiv:2504.13128v1 交叉类型公告摘要：我们介绍了 FreshStack，这是一个可复用的框架，用于从社区提出的问题和答案自动构建信息检索（IR）评估基准。FreshStack 执行以下步骤：(1) 从代码和技术文档中自动收集语料库，(2) 从社区提出的问题和答案生成知识片段，以及 (3) 在融合检索技术并采用混合架构的基础上进行知识片段级支持，检索文档。我们使用 FreshStack 构建了五个专注于快速发展的、近期的和小众话题的数据集，以确保任务具有足够的挑战性。在 FreshStack 上，现有的检索模型在所有五个主题上均显著落后于Oracle方法，表明在提高IR质量方面还有很大的改进空间。此外，我们发现有两个主题的再排序器并未明显提高第一阶段检索准确性。我们希望 FreshStack 能够促进未来构建现实、可扩展且不受污染的IR和RAG评估基准的工作。FreshStack 数据集可在：https://fresh-stack.github.io 获得。