摘要
arxiv:2407.16615v2 通知类型: 替换-交叉
摘要: 法律文本的标注和分类是实证法律研究的核心组成部分。传统上,这些任务通常委派给受过训练的研究助理完成。受语言模型进步的启发,实证法律学者越来越多地转向提示商业模型,希望这将缓解人类标注的巨大成本。尽管使用日益增长,但我们对如何最好地利用大型语言模型进行法律标注的理解仍然有限。为弥合这一差距,我们提出了CaselawQA,这是一个基准,包括260项法律标注任务,几乎全部是机器学习社区的新任务。我们展示了商业模型,如GPT-4.5和Claude 3.7 Sonnet,实现了非平凡但高度变异性精度,通常未能达到法律工作所需的性能水平。随后,我们展示了微调的少量轻量级模型优于商业模型。通常几百到一千个带标签的示例就足以实现更高的准确性。我们的工作指出了一个替代主流做法——提示商业模型的可行替代方案。对于具有部分可用标记数据的具体法律标注任务,研究者更有可能使用一个微调的开源模型。