LLM2D

摘要

arXiv:2501.14249v2 宣告类型: replace-cross 摘要：基准是跟踪大规模语言模型（LLM）能力飞速进步的重要工具。然而，基准在难度上没有跟上步伐：LLM 现在在诸如 MMLU 等热门基准测试上达到了超过 90% 的准确率，限制了对最新 LLM 能力的明智评估。为此，我们引入了人类的最后一场考试（HLE），这是一个面向人类知识前沿的多模态基准测试，旨在成为此类具有广泛学科覆盖的最终封闭式学术基准测试。HLE 包含了 3,000 道跨多个学科的问题，包括数学、人文和自然科学。HLE 由相关领域的专家在全球范围内开发，包含适合自动评分的选择题和简答题。每个问题都有一个已知的、明确且易于验证的答案，但这些答案不能通过互联网检索迅速获得。最先进的 LLM 在 HLE 上的准确率和校准度都很低，突显了当前 LLM 能力与封闭式学术问题的专家人类前沿之间存在的巨大差距。为了在充分了解模型能力的基础上指导研究和政策制定，我们已在 https://lastexam.ai 公开发布 HLE。