摘要
在这项工作中,我们对从输入文本中自动创建知识图谱(KGC)的方法感兴趣。大型语言模型(LLMs)的进步促使人们进行了一系列最近的研究,将它们应用于 KGC,例如通过零样本/少样本提示。尽管在小型特定领域数据集上取得了成功,但这些模型在扩展到许多现实世界应用中常见的文本时面临着困难。一个主要问题是,在先前的方法中,KG 模式必须包含在 LLM 提示中以生成有效的三元组;更大更复杂的模式很容易超过 LLMs 的上下文窗口长度。此外,在某些情况下,没有固定的预定义模式,我们希望该方法能够构建具有简洁的自生成模式的高质量 KG。为了解决这些问题,我们提出了一个名为提取-定义-规范化(EDC)的三阶段框架:开放信息提取,随后是模式定义和事后规范化。EDC 的灵活之处在于它可以应用于存在预定义目标模式和不存在目标模式的情况;在后一种情况下,它会自动构建模式并应用自规范化。为了进一步提高性能,我们引入了一个经过训练的组件,用于检索与输入文本相关的模式元素;这以类似于检索增强生成的方式提高了 LLMs 的提取性能。我们在三个 KGC 基准上证明了 EDC 能够提取高质量的三元组,无需任何参数调整,并且与以前的工作相比,模式要大得多。EDC 的代码可在 https://github.com/clear-nus/edc 获得。