LLM2D

摘要

arXiv:2505.09246v1 Announce Type: cross 摘要：在许多现实场景中，机器学习模型和交互系统可以访问结构化知识，例如知识图或表格，以及未结构化内容，例如自然语言文档。然而，大多数情况下它们仅依赖于其中一种。半结构化知识库(SKBs)通过将未结构化内容链接到结构化数据中的节点来弥合这一差距，从而为知识访问和使用提供了新的策略。在本文中，我们提出了FocusedRetriever，这是一种基于SKB的模块化框架，用于多跳问答。它通过将基于VSS的实体搜索、基于LLM生成Cypher查询和成对再排序的组件进行整合，使其能够在STaRK基准测试集的所有三个测试集中超过最先进的方法，覆盖了多个领域和多种性能指标。其首次命中率平均超出第二好方法25.7%。FocusedRetriever利用了（1）大语言模型（LLMs）提取未结构化文本中的关系事实和实体属性的能力，（2）节点集连接来根据这些提取的三元组和约束过滤答案候选者，（3）向量相似性搜索来检索和排名相关的未结构化内容，以及（4）大语言模型的上下文能力最终排名前k个答案。为了通用性，我们仅在评估中将基础LLM纳入了FocusedRetriever中。然而，我们对中间结果的分析强调了进一步升级的机会，包括微调。相关源代码可以在https://github.com/kramerlab/FocusedRetriever 公开获取。