LLM2D
使用自监督强化学习的知识图谱推理
Knowledge Graph Reasoning with Self-supervised Reinforcement Learning
作者: Ying Ma, Owen Burns, Mingqiu Wang, Gang Li, Nan Du, Laurent El Shafey, Liqiang Wang, Izhak Shafran, Hagen Soltau
发布日期: 4/17/2025
arXiv ID: oai:arXiv.org:2405.13640v2

摘要

arXiv:2405.13640v2 宣告类型: 替换-交叉 摘要:强化学习(RL)是一种在不完整知识图谱(KGs)中寻找推理路径的有效方法。为了克服大量动作空间的挑战,在强化学习训练阶段之前,提出了一种自监督预训练方法来预热策略网络。为了缓解通用自监督强化学习(SSRL)中的分布不匹配问题,在我们的监督学习(SL)阶段,代理基于策略网络选择动作并从生成的标签中学习;这种标签的自我生成是自监督名称背后的直觉。通过这种训练框架,我们SL目标的信息密度增加,并防止代理陷入早期奖励路径中。我们的自监督强化学习(SSRL)方法通过结合SL在预训练中实现的广泛覆盖来提高RL性能,因为SL目标的广度使其单独训练代理是不可能的。我们证明,我们的SSRL模型在四个大型基准KG数据集的所有Hits@k和平均倒数排名(MRR)指标上至少可以达到当前最先进结果。该SSRL方法可以作为任何KGR任务的插件使用。我们采用两种RL架构,即MINERVA和MultiHopKG作为基准RL模型,并实验证明,我们的SSRL模型在这四个KG推理任务上始终优于两个基准模型。论文的完整代码可在 https://github.com/owenonline/Knowledge-Graph-Reasoning-with-Self-supervised-Reinforcement-Learning 获取。