LLM2D

摘要

arXiv:2405.13640v2 宣告类型: 替换-交叉摘要：强化学习（RL）是一种在不完整知识图谱（KGs）中寻找推理路径的有效方法。为了克服大量动作空间的挑战，在强化学习训练阶段之前，提出了一种自监督预训练方法来预热策略网络。为了缓解通用自监督强化学习（SSRL）中的分布不匹配问题，在我们的监督学习（SL）阶段，代理基于策略网络选择动作并从生成的标签中学习；这种标签的自我生成是自监督名称背后的直觉。通过这种训练框架，我们SL目标的信息密度增加，并防止代理陷入早期奖励路径中。我们的自监督强化学习（SSRL）方法通过结合SL在预训练中实现的广泛覆盖来提高RL性能，因为SL目标的广度使其单独训练代理是不可能的。我们证明，我们的SSRL模型在四个大型基准KG数据集的所有Hits@k和平均倒数排名（MRR）指标上至少可以达到当前最先进结果。该SSRL方法可以作为任何KGR任务的插件使用。我们采用两种RL架构，即MINERVA和MultiHopKG作为基准RL模型，并实验证明，我们的SSRL模型在这四个KG推理任务上始终优于两个基准模型。论文的完整代码可在 https://github.com/owenonline/Knowledge-Graph-Reasoning-with-Self-supervised-Reinforcement-Learning 获取。