摘要
arXiv:2505.09246v1 Announce Type: cross
摘要:在许多现实场景中,机器学习模型和交互系统可以访问结构化知识,例如知识图或表格,以及未结构化内容,例如自然语言文档。然而,大多数情况下它们仅依赖于其中一种。半结构化知识库(SKBs)通过将未结构化内容链接到结构化数据中的节点来弥合这一差距,从而为知识访问和使用提供了新的策略。在本文中,我们提出了FocusedRetriever,这是一种基于SKB的模块化框架,用于多跳问答。它通过将基于VSS的实体搜索、基于LLM生成Cypher查询和成对再排序的组件进行整合,使其能够在STaRK基准测试集的所有三个测试集中超过最先进的方法,覆盖了多个领域和多种性能指标。其首次命中率平均超出第二好方法25.7%。FocusedRetriever利用了(1)大语言模型(LLMs)提取未结构化文本中的关系事实和实体属性的能力,(2)节点集连接来根据这些提取的三元组和约束过滤答案候选者,(3)向量相似性搜索来检索和排名相关的未结构化内容,以及(4)大语言模型的上下文能力最终排名前k个答案。为了通用性,我们仅在评估中将基础LLM纳入了FocusedRetriever中。然而,我们对中间结果的分析强调了进一步升级的机会,包括微调。相关源代码可以在https://github.com/kramerlab/FocusedRetriever 公开获取。