LLM2D

摘要

arXiv:2503.22144v1 类型: cross 摘要：将自然语言问题翻译成SPARQL查询可使知识库查询获得事实性和及时的回应。然而，现有任务的数据集主要基于模板，导致模型学会了问题和查询模板之间表面化的映射，而不是发展真正的泛化能力。因此，当遇到自然措辞、无模板的问题时，模型会遇到困难。本文引入了FRASE（基于框架的语义增强），这是一种新颖的方法，利用框架语义角色标注（FSRL）来解决这一局限。我们还介绍了LC-QuAD 3.0，这是从LC-QuAD 2.0派生出来的新数据集，在该数据集中，每个问题都通过框架检测和框架元素到其论元的映射进行了丰富。通过在不同微调配置下对最近的大语言模型（LLMs）进行广泛的实验，评估了这种方法的影响。我们的结果表明，在具有挑战性的泛化场景中，即测试问题包含未见过的模板（未知模板划分）以及当所有问题是自然措辞的（重新表述的问题）时，整合基于框架的结构化表示可以一致地改善SPARQL生成性能。