LLM2D

摘要

arXiv:2505.02763v1 交叉类型公告摘要：法律实践要求严格遵守程序规则。在美国，没有哪一套规则比《蓝皮书：统一引注系统》（The Bluebook: A Uniform System of Citation）中的规则更为复杂。遵守这套系统中长达五百多页的繁复格式指示是数千名学生法律评论编辑的职责所在，也是全世界律师们的心头之患。为了评估大型语言模型（LLMs）是否能够遵守这样的复杂系统，我们构建了一个包含866个蓝皮书任务的原始数据集，并测试了来自OpenAI、Anthropic、Google、Meta和DeepSeek的旗舰LLMs。结果显示（1）这些模型只有69%-74%的时间能够生成完全符合蓝皮书规范的引注，（2）针对蓝皮书底层规则进行上下文学习只能将准确性提高到77%。这些结果警示我们，在程序遵守至关重要的法律领域，不宜直接使用现成的LLMs来自动化相关工作。