LLM2D
LLMs与知识图谱之间元语言分歧检测的基准
A Benchmark for the Detection of Metalinguistic Disagreements between LLMs and Knowledge Graphs
作者: Bradley P. Allen, Paul T. Groth
发布日期: 2/6/2025
arXiv ID: oai:arXiv.org:2502.02896v1

摘要

arXiv:2502.02896v1 交叉类型公告 摘要:评估大型语言模型(LLMs)在支持知识图谱构建的事实提取任务中的表现时,通常会使用基于知识图谱(KG)的真相基准计算准确性指标。这些评估假设错误代表了事实上的分歧。然而,人类言语中经常出现元语言分歧,也就是说,不同主体在语言的含义上有所不同,而不是在所表达的事实本身上有所不同。鉴于使用LLMs进行自然语言处理和生成的复杂性,我们提出了一个问题:LLMs和KG之间是否确实存在元语言分歧?基于对T-REx知识对齐数据集的调查,我们假设LLMs和KG之间确实存在元语言分歧,这可能对知识图谱工程的实践具有重要意义。我们提出了一种用于评估LLMs和KG之间事实和元语言分歧的基准。这种基准的初步概念实现可以在GitHub上找到。