摘要
arXiv:2502.02896v1 交叉类型公告
摘要:评估大型语言模型(LLMs)在支持知识图谱构建的事实提取任务中的表现时,通常会使用基于知识图谱(KG)的真相基准计算准确性指标。这些评估假设错误代表了事实上的分歧。然而,人类言语中经常出现元语言分歧,也就是说,不同主体在语言的含义上有所不同,而不是在所表达的事实本身上有所不同。鉴于使用LLMs进行自然语言处理和生成的复杂性,我们提出了一个问题:LLMs和KG之间是否确实存在元语言分歧?基于对T-REx知识对齐数据集的调查,我们假设LLMs和KG之间确实存在元语言分歧,这可能对知识图谱工程的实践具有重要意义。我们提出了一种用于评估LLMs和KG之间事实和元语言分歧的基准。这种基准的初步概念实现可以在GitHub上找到。