LLM2D

摘要

arXiv:2410.17600v2 公告类型: 替换-交叉摘要：知识图谱（KGs）在人工智能领域至关重要，并且广泛应用于下游任务，如问答（QA）。知识图谱的构建通常需要领域专家的巨大努力。大规模语言模型（LLMs）最近被用于知识图谱构建（KGC）。然而，大多数现有方法主要侧重于局部视角，从单独的句子或文档中提取知识三元组，而忽略了将知识融合到全局知识图谱中的融合过程。本文引入了Graphusion，这是一种基于自由文本的零样本KGC框架。它包含三个步骤：在第一步中，我们使用主题建模提取种子实体列表，以指导最终知识图谱包含最相关的实体；在第二步中，我们使用LLMs进行候选三元组提取；在第三步中，我们设计了一个新颖的融合模块，为提取的知识提供全局视图，包括实体合并、冲突解决和新三元组发现。结果显示，Graphusion在实体提取和关系识别方面的得分分别为2.92和2.37（满分为3分）。此外，我们展示了如何将Graphusion应用于自然语言处理（NLP）领域，并在其教育场景中进行了验证。具体来说，我们引入了TutorQA，这是一种新的专家验证基准，包含六个任务和总共1200个问答对。使用Graphusion构建的知识图谱，我们在基准测试中取得了显著改进，例如在子图完成任务上的准确率提高了9.2%。