LLM2D

摘要

在现实场景中，从信息检索 (IR) 系统获得的大部分数据都是非结构化的。将自然语言句子转换为结构化的知识图谱 (KGs) 仍然是一个关键挑战。构建的 KGs 的质量也可能影响某些依赖 KG 的领域（如 GraphRAG 系统和推荐系统）的性能。最近，大型语言模型 (LLMs) 在解决各种自然语言处理任务方面展现出了令人印象深刻的能力。然而，利用 LLMs 来解决生成结构化 KGs 的任务仍然存在挑战。我们已经确定了现有 KG 构建方法的三个局限性。(1) 现实世界文档中存在大量信息和过多的噪声，这可能导致提取混乱的信息。(2) 原生 LLMs 难以有效地从某些特定领域的文档中提取准确的知识。(3) 在将 LLMs 直接用作构建 KGs 的无监督方法时，幻觉现象不容忽视。本文提出了一种知识图谱构建框架 GraphJudger 来应对上述挑战。我们在方法中引入了三个创新模块，分别是：以实体为中心的迭代文本去噪、知识感知指令微调和图判断。我们试图利用 LLMs 的能力使其充当图判断器，这种能力优于其仅作为 KG 构建问题预测器的角色。在两个通用文本-图对数据集和一个特定领域文本-图对数据集上进行的实验表明，与基线方法相比，该方法具有优越的性能。我们提出的方法的代码可在 https://github.com/hhy-huang/GraphJudger 获取。