LLM2D
LegalCore:法律文件事件同义词消解数据集
LegalCore: A Dataset for Legal Documents Event Coreference Resolution
作者: Kangda Wei, Xi Shi, Jonathan Tong, Sai Ramana Reddy, Anandhavelu Natarajan, Rajiv Jain, Aparna Garimella, Ruihong Huang
发布日期: 2/19/2025
arXiv ID: oai:arXiv.org:2502.12509v1

摘要

arXiv:2502.12509v1 交叉类型:cross 摘要:识别文档中的事件及其同指mention是理解文本语义意义的关键。现有的事件同指消解研究主要局限于新闻文章。在本文中,我们首次构建了一个针对法律领域的数据集LegalCore,该数据集已全面标注了事件及其事件同指信息。我们在该数据集上标注的法律合同文档比新闻文章长得多,平均每份文档包含约25k个词。标注结果显示,法律文件中的事件mention密集,事件mention之间既有短距离也有超长距离的同指链接。我们进一步在该数据集上对主流大规模语言模型(LLMs)进行了基准测试,用于事件检测和事件同指消解任务,并发现该数据集对最先进的开源和专有LLMs提出了重大挑战,它们的表现显著低于有监督的基本模型。我们将发布该数据集以及用于训练的代码。