LLM2D

摘要

知识图谱生成文本任务旨在将结构化的知识图谱转换为连贯且易于阅读的自然语言文本。最近在该领域的努力集中在通过引入图结构信息来增强预训练语言模型（PLMs），以捕捉知识图谱的复杂结构细节。然而，大多数方法往往只捕捉单一粒度的结构信息，要么集中于原始图中实体之间的关系，要么集中于同一实体内或不同实体之间的词汇关系。这种狭隘的关注导致了一个显著的限制：专注于实体级别结构的模型未能捕捉词汇之间的细微语义关系，而专注于词汇级别结构的模型则忽视了整个原始实体之间的更广泛关系。为了克服这些限制，本文引入了基于PLMs的多粒度图结构注意（MGSA）。模型架构的编码器具有一个实体级别结构编码模块，一个词汇级别结构编码模块，以及一个综合两个结构信息的聚合模块。这种多粒度结构编码方法使模型能够同时捕捉实体级别和词汇级别的结构信息，从而更全面地理解知识图谱的结构信息，显著提高生成文本的质量。我们使用两个广泛认可的知识图谱生成文本基准数据集WebNLG和EventNarrative对MGSA模型进行了广泛评估，结果表明，MGSA模型在这些基准上始终优于仅依赖单一粒度结构信息的模型，证明了我们方法的有效性。