LLM2D

摘要

arXiv:2502.02896v1 交叉类型公告摘要：评估大型语言模型（LLMs）在支持知识图谱构建的事实提取任务中的表现时，通常会使用基于知识图谱（KG）的真相基准计算准确性指标。这些评估假设错误代表了事实上的分歧。然而，人类言语中经常出现元语言分歧，也就是说，不同主体在语言的含义上有所不同，而不是在所表达的事实本身上有所不同。鉴于使用LLMs进行自然语言处理和生成的复杂性，我们提出了一个问题：LLMs和KG之间是否确实存在元语言分歧？基于对T-REx知识对齐数据集的调查，我们假设LLMs和KG之间确实存在元语言分歧，这可能对知识图谱工程的实践具有重要意义。我们提出了一种用于评估LLMs和KG之间事实和元语言分歧的基准。这种基准的初步概念实现可以在GitHub上找到。