LLM2D

摘要

arXiv:2502.05836v1 宣告类型: cross 摘要：在这篇论文中，我们通过修辞角色分类任务解决了法律文件的语义分割问题，重点关注印度法律判决。我们引入了LegalSeg，这是迄今为止针对此任务的最大标注数据集，包含超过7,000份文档和140万句句子，标注了7个修辞角色。为了评估性能，我们评估了多个当前最先进的模型，包括分层双向LSTM-CRF、TransformerOverInLegalBERT（ToInLegalBERT）、图神经网络（GNNs）和角色感知Transformer，同时还包括了一个探索性的RhetoricLLaMA，即经过指令调整的大语言模型。我们的结果显示，那些 Incorporating 更广泛的语境、结构关系和序列句子信息的模型在性能上优于那些仅依赖句子级特征的模型。此外，我们还通过使用邻近句子的上下文和预测或实际标签进行了实验，以评估这些因素对分类准确性的影响。尽管取得了这些进展，但在区分紧密相关的角色和解决类别不平衡问题方面仍存在挑战。我们的工作强调了先进技术在提高法律文件理解方面的潜力，并为未来法律NLP研究奠定了坚实的基础。