摘要
arXiv:2504.16353v1 宣布类型: cross
摘要: 自动从法律文本中提取定义对于增强复杂的法律语料库(如美国法典(U.S.C.))的可读性和清晰度至关重要。我们提出了一种先进的自然语言处理系统,利用基于Transformer的架构自动从美国法典中提取定义术语、其定义及其范围。我们解决了自动识别法律定义、提取定义术语以及在这一复杂的20多万页联邦法规语料库中确定其范围的挑战。在之前的特征基于机器学习方法的基础上,我们更新的模型采用专门针对法规文本训练的领域特定Transformer(Legal-BERT),显著提高了提取准确性。我们的工作实现了一种多阶段管道,结合了文档结构分析和最先进的语言模型,处理来自美国法典XML版本的法律文本。首先,每段文本都使用微调的法律领域BERT模型进行分类,以确定是否包含定义。然后,系统将相关段落聚合为连贯的定义单元,并应用注意力机制和基于规则的模式来提取定义术语及其管辖范围。定义提取系统在包含数千个定义的美国法典多个标题上进行了评估,证明了与先前方法相比有显著改进。我们的最佳模型达到了96.8%的精确率、98.9%的召回率(F1分数为98.2%),远超传统机器学习分类器。这项工作有助于提高法律信息的可访问性和理解度,并为下游法律推理任务奠定基础。