LLM2D

摘要

arXiv:2502.05239v1 Announce Type: cross 摘要：近年来，大规模语言模型在从无结构文本自动生成知识图谱方面展现出了巨大的潜力。本文在我们之前的工作[16]基础上进行，该工作使用精确度、召回率、F1 值、三元组匹配和图匹配等指标评估了各种模型，并提出了一种改进的方法来解决幻觉和遗漏的关键问题。我们提出了一种增强的评估框架，其中包含 BERTScore 作为图相似性指标，并为图匹配设定了一个实际阈值为 95%。我们的实验集中在 Mistral 模型上，比较了其原始版本和微调版本在零样本和少样本设置下的表现。我们进一步使用 KELM-sub 训练数据集中的示例扩展了我们的实验，说明了微调模型在提高知识图谱构建准确率、减少确切幻觉和遗漏方面显着改善了表现。然而，我们的研究结果还表明，微调模型在 KELM-sub 数据集的一般化任务中的表现较差。本研究强调了在文本数据的知识图谱构建领域推进先进水平的重要性，需要综合评估指标。