摘要
关系抽取是旨在从文本数据中提取关系的自然语言处理任务,它是信息抽取的关键步骤。由于其广泛的适用性,关系抽取研究已迅速扩展到使用高度先进的神经网络。尽管具有计算优势,但现代关系抽取器无法处理复杂的抽取场景。然而,文献中缺乏对汇编这些挑战的最新抽取器的全面性能分析,本文旨在弥补这一差距。目标是研究可能阻碍神经关系抽取的数据中心特征。这项研究基于使用15种最先进的关系抽取算法(从循环架构到大型语言模型)和七个大型数据集进行的大量实验,表明现代关系抽取器对复杂的数据和关系特征并不鲁棒。它强调了关键问题,例如上下文歧义、相关关系、长尾数据和细粒度关系分布。此外,它为缓解这些问题的未来方向设定了标记,从而成为新手和高级研究人员的重要资源。有效处理所描述的挑战,可以对信息抽取领域产生重大影响,信息抽取是搜索引擎和聊天机器人等流行系统的关键组成部分。数据和相关代码可在\url{https://aaig.ece.ufl.edu/projects/relation-extraction}找到。