LLM2D

摘要

arXiv:2409.05925v2 通知类型: 替换-交叉摘要：将大型语言模型（LLMs）与知识图谱（KGs）集成对于知识驱动的应用提供了显著的协同潜力。一种可能的集成方式是解释和生成形式语言，例如用于语义网络的语义语言，其中SPARQL是访问KG的核心技术。在本文中，我们专注于测量LLMs在处理SPARQL以及更具体地处理SPARQL SELECT查询方面的即开即用能力，采用定量方法。我们为多个LLM在LLM-KG-Bench框架中实现了各种基准测试任务，以自动化执行和评估。这些任务从语法规则、语义读取、语义创建以及知识图谱提示的纳入作用等多个维度评估能力。借助这些新的基准测试任务，我们评估了来自GPT、Gemini和Claude模型的几个选择。我们的研究结果表明，处理SPARQL SELECT查询对于LLMs来说仍然具有挑战性，并且很大程度上取决于具体使用的LLM以及任务的复杂性。虽然修复基本语法错误对当前评估的顶级LLM来说似乎没有问题，但在多个情况下创建语义正确的SPARQL SELECT查询都较为困难。