摘要
arXiv:2409.13717v2 宣告类型: 交叉替换
摘要:大型语言模型(LLMs)在文本理解和生成方面的卓越能力已经彻底改变了信息提取(IE)。其中一项进步是文档级别关系三元组提取(DocRTE),这是信息系统中一项关键任务,旨在从文档中提取实体及其语义关系。然而,现有的方法主要用于句子级别关系三元组提取(SentRTE),通常仅处理单句中的一组有限关系和三元组事实。此外,一些方法将关系处理为集成到提示模板中的候选选择,这导致在确定三元组中关系元素时处理效率低且性能不佳。为了解决这些限制,我们引入了一种区分和意识导向框架 DiVA。DiVA 只涉及两个步骤:首先进行文档级别关系提取(DocRE),然后基于关系识别主体和客体实体。无需额外处理,只需将文档直接输入即可直接获得三元组。这个简化的过程更准确地反映了实际三元组提取中的现实场景。我们的创新之处在于将 DocRE 转换为一个区分任务,模型不仅关注每个关系,还关注三元组中往往被忽视的主动语态与被动语态问题。我们在 Re-DocRED 和 DocRED 数据集上的实验表明,DiVA 在文档级别关系三元组提取任务中达到了领先的结果。