摘要
结构化数据,例如表格、图和数据库,在许多自然语言处理任务(如问答和对话系统)中发挥着至关重要的作用。最近,受视觉语言模型的启发,图神经网络 (GNN) 作为一种附加模态被引入大型语言模型 (LLM) 的输入中,以提高其在结构化知识接地 (SKG) 任务上的性能。然而,这些增强型 GNN 的 LLM 存在以下局限性:(1) 它们采用不同的 GNN 来模拟不同类型的结构化数据,使其无法统一处理各种形式的结构化数据。(2) GNN 的预训练与特定的 LLM 耦合,这阻止了 GNN 与文本空间完全对齐,并限制了其对其他 LLM 的适应性。为了解决这些问题,我们提出了**大型语言和结构化数据助手 (LLaSA)**,这是一个增强 LLM 处理结构化数据能力的通用框架。具体来说,我们将各种类型的结构化数据表示为统一的超图格式,并使用自监督学习来预训练超图编码器,以及使用交叉注意力压缩编码超图表示的 G-Former。在 LLM 的训练和推理阶段,压缩的超图表示被附加到序列化输入中。在多个 SKG 任务上的实验结果表明,我们预训练的超图编码器可以适应各种 LLM,并增强其处理不同类型结构化数据的能力。此外,使用 LoRA 微调的 LLaSA,优于使用全参数微调的先前最先进的方法。