LLM2D

摘要

arXiv:2504.21202v1 宣告类型: cross 摘要: 尽管近年来大型语言模型取得了进展，但由于评估法律写作的基准基准稀缺，这主要是由于评估开放性回答的固有复杂性所致，因此目前仍然稀缺。在评估特定领域的语言模型时，找到足够公开、经常更新且包含全面评估指南的数据集是关键挑战之一。巴西律师资格考试恰好符合这些要求。我们介绍了oab-bench，这是一个包含最近几年考试中七个法律领域的105道题目的基准。该基准包括全面的评估指南和由人类考官使用的参考材料，以确保评分的一致性。我们对oab-bench上的四个人工智能语言模型进行了性能评估，结果发现Claude-3.5 Sonnet得分最高，平均分为10分中的7.93，并通过了所有21场考试。我们还研究了人工智能语言模型是否可以作为可靠的自动法官来评估法律写作。我们的实验表明，前沿模型如OpenAI的o1在评估已批准的考试时与人类评分有很强的相关性，这表明它们在本质上具有主观性的法律写作评估中作为可信的自动评估员的可能性。源代码和基准数据——包括问题、评估指南、模型生成的回应及其相应的自动评估——都是公开的。