LLM2D

摘要

关系抽取对于构建知识图谱至关重要，而高质量的大型数据集是训练、微调和评估模型的基础。生成式数据增强（GDA）是扩展此类数据集的一种常见方法。然而，这种方法通常会引入幻觉，例如虚假事实，其对关系抽取的影响尚待探索。本文考察了幻觉对文档级和句子级关系抽取性能的影响。我们的实证研究表明，幻觉会严重损害模型从文本中提取关系的能力，导致召回率下降 19.1% 到 39.2%。我们发现相关幻觉会损害模型的性能，而无关幻觉的影响很小。此外，我们开发了检测幻觉的方法来提高数据质量和模型性能。我们的方法成功地将文本分类为“幻觉”或“干净”，实现了 83.8% 和 92.2% 的高 F1 分数。这些方法不仅有助于消除幻觉，还有助于估计数据集中的幻觉流行率，这对选择高质量数据至关重要。总的来说，我们的工作证实了相关幻觉对关系抽取模型有效性的深远影响。