LLM2D
LLaSA: 大型语言和结构化数据助手
LLaSA: Large Language and Structured Data Assistant
作者: Yao Xu, Shizhu He, Jiabei Chen, Zeng Xiangrong, Bingning Wang, Guang Liu, Jun Zhao, Kang Liu
发布日期: 2/11/2025
arXiv ID: oai:arXiv.org:2411.14460v2

摘要

arXiv:2411.14460v2 宣告类型: 替换交叉 摘要:结构化数据,如表格、图和数据库,在诸如问答和对话系统等众多自然语言处理任务中发挥着关键作用。最近,在受到视觉-语言模型的启发下,图中立网络(GNNs)作为额外的输入模态被引入到大型语言模型(LLMs)中,以提高它们在结构化知识定位(SKG)任务上的性能。然而,这些增强GNN的LLMs存在以下局限性:(1)它们使用多样化的GNN来建模不同类型的结构化数据,使其无法统一处理各种形式的结构化数据。(2)GNN的预训练与特定的LLMs耦合,这妨碍了GNN完全与文本空间对齐,并限制了其对其他LLMs的适应性。为解决这些问题,我们提出了一种名为**大规模语言和结构化数据助手**(LLaSA)的一般框架,旨在增强LLMs处理结构化数据的能力。具体而言,我们以统一的超图格式表示各种类型的结构化数据,并采用自监督学习预训练一个超图编码器,通过交叉注意力压缩编码的超图表示,并在LLMs的训练和推理阶段将压缩的超图表示附加到串行化输入中。在多个SKG任务上的实验结果表明,我们的预训练超图编码器可以适应各种LLMs,并增强它们处理不同类型的结构化数据的能力。此外,与全参数调优的前SOTA方法相比,使用LoRA微调的LLaSA表现出更好的性能。