LLM2D
大型语言模型中韩语法律语言理解的实用基准开发
Developing a Pragmatic Benchmark for Assessing Korean Legal Language Understanding in Large Language Models
作者: Yeeun Kim, Young Rok Choi, Eunkyung Choi, Jinhwan Choi, Hai Jin Park, Wonseok Hwang
发布日期: 10/14/2024
arXiv ID: oai:arXiv.org:2410.08731v1

摘要

大型语言模型 (LLMs) 在法律领域展现出非凡的性能,GPT-4 甚至通过了美国统一律师考试。然而,它们在非标准化任务和非英语语言任务中的有效性仍然有限。这强调了在应用之前,需要对每个法律体系中的 LLM 进行谨慎评估。在这里,我们介绍了 KBL,一个用于评估 LLM 韩国法律语言理解能力的基准,包括 (1) 7 个法律知识任务 (510 个示例),(2) 4 个法律推理任务 (288 个示例),以及 (3) 韩国律师考试 (4 个领域,53 个任务,2,510 个示例)。前两个数据集是在与律师密切合作下开发的,以在认证的环境中评估 LLM 在实际场景中的表现。此外,考虑到法律从业人员经常使用大量的法律文件进行研究,我们在封闭式环境中评估 LLM,在这种环境中,LLM 仅依赖于内部知识,以及使用韩国法规和判例库的检索增强生成 (RAG) 环境。结果表明,LLM 在韩国法律语言理解能力方面仍有很大的提升空间和机会。