LLM2D
人类的最后一考
Humanity's Last Exam
发布日期: 2/20/2025
arXiv ID: oai:arXiv.org:2501.14249v4

摘要

arXiv:2501.14249v4 宣告类型: 替换-交叉 摘要: 基准是跟踪大型语言模型(LLM)能力快速进步的重要工具。然而,基准的难度没有跟上进步的步伐:LLM 现在在像 MMLU 这样的流行基准测试中达到了超过 90% 的准确性,限制了对最新 LLM 能力的公正评估。为应对这一问题,我们引入了《人类的最后一试》(HLE),这是一个处于人类知识前沿的多模态基准测试,旨在成为此类基准测试中的最后一个封闭式学术基准测试,涵盖了广泛的学科内容。HLE 包含涵盖几十个科目的 3,000 道题目,包括数学、人文和社会科学。HLE 由相关领域的专家在全球范围内开发,包含适合自动化评分的选择题和简答题。每个问题都有一个已知的解决方案,该解决方案是明确的且易于验证,但不能通过互联网检索迅速回答。最先进的 LLM 在 HLE 上展示了低准确性和校准度,突显了目前 LLM 能力与封闭式学术问题的专家人类前沿之间的显著差距。为使研究和政策制定建立在对模型能力清楚理解的基础上,我们已公开发布了 HLE,可访问 https://lastexam.ai。