LLM2D
评估大型语言模型的SPARQL能力
Assessing SPARQL capabilities of Large Language Models
作者: Lars-Peter Meyer, Johannes Frey, Felix Brei, Natanael Arndt
发布日期: 4/7/2025
arXiv ID: oai:arXiv.org:2409.05925v2

摘要

arXiv:2409.05925v2 通知类型: 替换-交叉 摘要:将大型语言模型(LLMs)与知识图谱(KGs)集成对于知识驱动的应用提供了显著的协同潜力。一种可能的集成方式是解释和生成形式语言,例如用于语义网络的语义语言,其中SPARQL是访问KG的核心技术。在本文中,我们专注于测量LLMs在处理SPARQL以及更具体地处理SPARQL SELECT查询方面的即开即用能力,采用定量方法。 我们为多个LLM在LLM-KG-Bench框架中实现了各种基准测试任务,以自动化执行和评估。这些任务从语法规则、语义读取、语义创建以及知识图谱提示的纳入作用等多个维度评估能力。 借助这些新的基准测试任务,我们评估了来自GPT、Gemini和Claude模型的几个选择。我们的研究结果表明,处理SPARQL SELECT查询对于LLMs来说仍然具有挑战性,并且很大程度上取决于具体使用的LLM以及任务的复杂性。虽然修复基本语法错误对当前评估的顶级LLM来说似乎没有问题,但在多个情况下创建语义正确的SPARQL SELECT查询都较为困难。