LLM2D
K-ON: 在大型语言模型的头部层堆叠知识
K-ON: Stacking Knowledge On the Head Layer of Large Language Model
作者: Lingbing Guo, Yichi Zhang, Zhongpu Bo, Zhuo Chen, Mengshu Sun, Zhiqiang Zhang, Wen Zhang, Huajun Chen
发布日期: 2/11/2025
arXiv ID: oai:arXiv.org:2502.06257v1

摘要

arXiv:2502.06257v1 交叉类型 摘要:近年来,大型语言模型(LLM)在各种自然语言处理(NLP)任务中取得了显著的进步。通常,LLM 是通过预测下一个标记来训练的,这与许多 NLP 任务相吻合。然而,在知识图谱(KG)场景中,实体是基本单位,识别一个实体至少需要几个标记。这导致了 KG 和自然语言之间的粒度不匹配。为了解决这个问题,我们提出了 K-ON,它通过使用多个头层来进行 k 步预测,将 KG 知识整合到 LLM 中。K-ON 不仅可以在一步中生成实体级别的结果,还可以针对实体启用对比损失,这是 KG 表示学习中最强大的工具。实验结果表明,K-ON 在结合文本甚至其他模态的方法中性能更优。