LLM2D

摘要

arXiv:2504.16353v1 宣布类型: cross 摘要: 自动从法律文本中提取定义对于增强复杂的法律语料库（如美国法典（U.S.C.））的可读性和清晰度至关重要。我们提出了一种先进的自然语言处理系统，利用基于Transformer的架构自动从美国法典中提取定义术语、其定义及其范围。我们解决了自动识别法律定义、提取定义术语以及在这一复杂的20多万页联邦法规语料库中确定其范围的挑战。在之前的特征基于机器学习方法的基础上，我们更新的模型采用专门针对法规文本训练的领域特定Transformer（Legal-BERT），显著提高了提取准确性。我们的工作实现了一种多阶段管道，结合了文档结构分析和最先进的语言模型，处理来自美国法典XML版本的法律文本。首先，每段文本都使用微调的法律领域BERT模型进行分类，以确定是否包含定义。然后，系统将相关段落聚合为连贯的定义单元，并应用注意力机制和基于规则的模式来提取定义术语及其管辖范围。定义提取系统在包含数千个定义的美国法典多个标题上进行了评估，证明了与先前方法相比有显著改进。我们的最佳模型达到了96.8%的精确率、98.9%的召回率（F1分数为98.2%），远超传统机器学习分类器。这项工作有助于提高法律信息的可访问性和理解度，并为下游法律推理任务奠定基础。