LLM2D
人类的最后一场考试
Humanity's Last Exam
发布日期: 2/7/2025
arXiv ID: oai:arXiv.org:2501.14249v2

摘要

arXiv:2501.14249v2 宣告类型: replace-cross 摘要:基准是跟踪大规模语言模型(LLM)能力飞速进步的重要工具。然而,基准在难度上没有跟上步伐:LLM 现在在诸如 MMLU 等热门基准测试上达到了超过 90% 的准确率,限制了对最新 LLM 能力的明智评估。为此,我们引入了人类的最后一场考试(HLE),这是一个面向人类知识前沿的多模态基准测试,旨在成为此类具有广泛学科覆盖的最终封闭式学术基准测试。HLE 包含了 3,000 道跨多个学科的问题,包括数学、人文和自然科学。HLE 由相关领域的专家在全球范围内开发,包含适合自动评分的选择题和简答题。每个问题都有一个已知的、明确且易于验证的答案,但这些答案不能通过互联网检索迅速获得。最先进的 LLM 在 HLE 上的准确率和校准度都很低,突显了当前 LLM 能力与封闭式学术问题的专家人类前沿之间存在的巨大差距。为了在充分了解模型能力的基础上指导研究和政策制定,我们已在 https://lastexam.ai 公开发布 HLE。