LLM2D

摘要

arXiv:2409.13717v2 宣告类型: 交叉替换摘要：大型语言模型（LLMs）在文本理解和生成方面的卓越能力已经彻底改变了信息提取（IE）。其中一项进步是文档级别关系三元组提取（DocRTE），这是信息系统中一项关键任务，旨在从文档中提取实体及其语义关系。然而，现有的方法主要用于句子级别关系三元组提取（SentRTE），通常仅处理单句中的一组有限关系和三元组事实。此外，一些方法将关系处理为集成到提示模板中的候选选择，这导致在确定三元组中关系元素时处理效率低且性能不佳。为了解决这些限制，我们引入了一种区分和意识导向框架 DiVA。DiVA 只涉及两个步骤：首先进行文档级别关系提取（DocRE），然后基于关系识别主体和客体实体。无需额外处理，只需将文档直接输入即可直接获得三元组。这个简化的过程更准确地反映了实际三元组提取中的现实场景。我们的创新之处在于将 DocRE 转换为一个区分任务，模型不仅关注每个关系，还关注三元组中往往被忽视的主动语态与被动语态问题。我们在 Re-DocRED 和 DocRED 数据集上的实验表明，DiVA 在文档级别关系三元组提取任务中达到了领先的结果。