LLM2D

摘要

大型语言模型 (LLMs) 在法律领域展现出非凡的性能，GPT-4 甚至通过了美国统一律师考试。然而，它们在非标准化任务和非英语语言任务中的有效性仍然有限。这强调了在应用之前，需要对每个法律体系中的 LLM 进行谨慎评估。在这里，我们介绍了 KBL，一个用于评估 LLM 韩国法律语言理解能力的基准，包括 (1) 7 个法律知识任务 (510 个示例)，(2) 4 个法律推理任务 (288 个示例)，以及 (3) 韩国律师考试 (4 个领域，53 个任务，2,510 个示例)。前两个数据集是在与律师密切合作下开发的，以在认证的环境中评估 LLM 在实际场景中的表现。此外，考虑到法律从业人员经常使用大量的法律文件进行研究，我们在封闭式环境中评估 LLM，在这种环境中，LLM 仅依赖于内部知识，以及使用韩国法规和判例库的检索增强生成 (RAG) 环境。结果表明，LLM 在韩国法律语言理解能力方面仍有很大的提升空间和机会。