摘要
arXiv:2502.09247v1 交叉类型:公告
摘要:联合实体-关系抽取是将无结构或半结构化文本转换为三元组的关键任务,有助于构建大规模知识图谱,并支持各种下游应用。尽管这项任务的重要性不言而喻,但对于中文文本的研究,尤其是对于医学等专业领域中复杂的语义,研究仍然有限。为了填补这一空白,我们提出了CH-DDI数据集,这是一个专门设计用于捕捉医学文本复杂性的中文药物-药物相互作用数据集。利用注意机制在捕捉长范围依赖性方面的优势,我们提出了SEA模块,该模块增强了对复杂上下文语义信息的抽取,从而提高了实体识别和关系抽取的效果。此外,为了缓解现有方法在促进实体识别和关系抽取之间的信息交流方面的效率问题,我们提出了一个交互式融合表示模块。该模块通过双向注意机制在任务之间进行信息交换,并通过BiLSTM进一步细化特征提取。我们在我们的CH-DDI数据集和公开的CoNLL04数据集上的实验结果表明,我们的模型具有较强的泛化能力。在CH-DDI数据集上,我们的模型在实体识别上的F1分数为96.73%,关系抽取的F1分数为78.43%。在CoNLL04数据集上,实体识别的准确率为89.54%,关系抽取的准确率为71.64%。