摘要
关系抽取对于构建知识图谱至关重要,而高质量的大型数据集是训练、微调和评估模型的基础。生成式数据增强(GDA)是扩展此类数据集的一种常见方法。然而,这种方法通常会引入幻觉,例如虚假事实,其对关系抽取的影响尚待探索。本文考察了幻觉对文档级和句子级关系抽取性能的影响。我们的实证研究表明,幻觉会严重损害模型从文本中提取关系的能力,导致召回率下降 19.1% 到 39.2%。我们发现相关幻觉会损害模型的性能,而无关幻觉的影响很小。此外,我们开发了检测幻觉的方法来提高数据质量和模型性能。我们的方法成功地将文本分类为“幻觉”或“干净”,实现了 83.8% 和 92.2% 的高 F1 分数。这些方法不仅有助于消除幻觉,还有助于估计数据集中的幻觉流行率,这对选择高质量数据至关重要。总的来说,我们的工作证实了相关幻觉对关系抽取模型有效性的深远影响。