LLM2D

摘要

arXiv:2501.14249v4 宣告类型: 替换-交叉摘要: 基准是跟踪大型语言模型（LLM）能力快速进步的重要工具。然而，基准的难度没有跟上进步的步伐：LLM 现在在像 MMLU 这样的流行基准测试中达到了超过 90% 的准确性，限制了对最新 LLM 能力的公正评估。为应对这一问题，我们引入了《人类的最后一试》（HLE），这是一个处于人类知识前沿的多模态基准测试，旨在成为此类基准测试中的最后一个封闭式学术基准测试，涵盖了广泛的学科内容。HLE 包含涵盖几十个科目的 3,000 道题目，包括数学、人文和社会科学。HLE 由相关领域的专家在全球范围内开发，包含适合自动化评分的选择题和简答题。每个问题都有一个已知的解决方案，该解决方案是明确的且易于验证，但不能通过互联网检索迅速回答。最先进的 LLM 在 HLE 上展示了低准确性和校准度，突显了目前 LLM 能力与封闭式学术问题的专家人类前沿之间的显著差距。为使研究和政策制定建立在对模型能力清楚理解的基础上，我们已公开发布了 HLE，可访问 https://lastexam.ai。