LLM2D

摘要

arXiv:2505.04732v1 交叉类型：信息检索摘要：Query-By-Document (QBD) 问题是一种信息检索问题，其中查询是一个文档，检索到的候选文档是与查询文档匹配的文档，通常是在特定领域或查询范围内匹配。这在专利匹配、法律或合规案例检索、以及学术文献审查等任务中至关重要。现有的检索方法，包括关键词搜索和文档嵌入，可以通过使用特定领域的数据集进行优化，以提高QBD搜索性能。然而，创建这些特定领域的数据集往往成本高昂且耗时。我们的工作介绍了一个生成定制QBD搜索数据集的过程，并对比了几种在该问题中使用的的方法，我们将这种方法称为QBD-RankedDatagen。我们从成本、速度和与领域专家的人机交互方面对比了我们提出的方法。我们比较的方法利用了大型语言模型（LLMs），这些模型可以结合领域专家的输入来生成文档评分和排名，以及供人工审查的解释。我们提出的过程及其方法可以显著减少为定制领域创建数据集所需的人力，同时仍然能够获得足够的专家知识以调优检索模型。我们对来自Text Retrieval Conference (TREC) 的QBD数据集进行了方法评估，并使用生成的数据对BM25模型进行了微调——BM25模型在许多工业级搜索引擎如OpenSearch中被广泛应用。