LLM2D

摘要

arXiv:2502.08652v1 Announce Type: cross 摘要：本研究介绍了一种名为LegalScore的专业指数，用于评估生成人工智能模型在巴西选定范围的职业考试中的表现，这些考试要求具备法律背景。该指数评估了十四种不同类型的生成人工智能模型，在这些考试中回答客观问题的表现，涵盖了从 proprietary 模型到开源模型。研究揭示了当将英语训练的大语言模型应用于巴西法律情景时，模型的响应情况，这促使我们反思生成人工智能模型中特定于巴西的训练数据的重要性和必要性。表现分析显示，虽然 proprietary 和大多数知名模型在整体上取得了更好的结果，但本地和规模较小的模型也表现出色，因为它们在训练中的巴西语境对齐。通过建立包括准确率、置信区间和标准化评分在内的评价框架，LegalScore 使人们能够系统性地评估生成人工智能在巴西法律考试中的表现。尽管研究展示了生成人工智能在考试准备和问题开发方面的潜在价值，但它也指出，在人工智能能够达到人类在高级法律评估中的表现之前，还需要进行显著的改进。该基准为继续研究奠定了基础，强调了生成人工智能发展中本地适应的重要性。