LLM2D
基于概念覆盖的查询集生成以改善科学文献检索
Improving Scientific Document Retrieval with Concept Coverage-based Query Set Generation
作者: SeongKu Kang, Bowen Jin, Wonbin Kweon, Yu Zhang, Dongha Lee, Jiawei Han, Hwanjo Yu
发布日期: 2/18/2025
arXiv ID: oai:arXiv.org:2502.11181v1

摘要

arXiv:2502.11181v1 声明类型:交叉 摘要:在科学领域等专门领域中,构建大规模的人工标注数据集由于需要领域专业知识而成为一个重大挑战。最近的方法使用了大型语言模型生成合成查询,这些查询作为实际用户查询的代理。然而,这些方法在生成内容时缺乏控制,常常导致学术概念在文档中的覆盖面不完整。我们介绍了基于概念覆盖的查询集生成(CCQGen)框架,该框架旨在生成一套全面覆盖文档概念的查询集。CCQGen 的一个关键区别在于它会根据之前生成的查询自适应地调整生成过程。我们识别出之前查询未充分覆盖的概念,并将其作为后续查询生成的条件。这种方法指导每个新查询来补充之前的查询,有助于对文档进行彻底的理解。广泛的实验证明,CCQGen 显著提高了查询质量和检索性能。