LLM2D

摘要

大型语言模型（LLMs）在文本理解和生成方面的显著能力已经彻底改变了信息提取（IE）领域。其中一项进展是在文档级关系三元组提取（DocRTE）方面，这是信息系统中的一个关键任务，旨在从文档中提取实体及其语义关系。然而，现有方法主要设计用于句子级关系三元组提取（SentRTE），通常处理的是单一句子内的有限关系和三元组事实。此外，一些方法将关系视为候选选择集成到提示模板中，导致在确定三元组中的关系元素时处理效率低下且性能不佳。为了解决这些限制，我们引入了一种判别和语音感知范式DiVA。DiVA仅涉及两个步骤：执行文档级关系提取（DocRE），然后根据关系识别主语和宾语实体。无需额外处理，只需输入文档即可直接获得三元组。这种简化的过程更准确地反映了现实世界中三元组提取的场景。我们的创新之处在于将DocRE转化为一个判别任务，模型关注每个关系以及三元组中常被忽视的主动与被动语态问题。我们在Re-DocRED和DocRED数据集上的实验展示了DocRTE任务的最新成果。