摘要
随着机器智能的发展,测试和比较不同人工智能模型解决问题能力的需求日益增长。然而,目前的基准测试往往过于简单,导致模型表现一致良好,难以区分其能力。此外,基准测试通常依赖于模型可能记住或猜测的静态问答对。为了解决这些局限性,我们引入了动态智能评估 (DIA) ,这是一种使用动态问题模板和改进的指标来测试人工智能模型的新方法,涵盖数学、密码学、网络安全和计算机科学等多个学科。配套的数据集 DIA-Bench 包含各种具有可变参数的挑战模板,以多种格式呈现,包括文本、PDF、编译后的二进制文件、视觉谜题和 CTF 风格的网络安全挑战。我们的框架引入了四个新的指标来评估模型在多次尝试中的可靠性和置信度。这些指标表明,即使是简单的题,当以不同的形式提出时也经常被错误地回答,这突显了模型可靠性方面的显著差距。值得注意的是,像 GPT-4o 这样的 API 模型往往高估了自身的数学能力,而 ChatGPT-4o 由于有效地使用了工具而表现更好。在自我评估方面,OpenAI 的 o1-mini 证明了其在判断应该尝试解决哪些任务方面具有最佳判断力。我们使用 DIA-Bench 评估了 25 个最先进的大型语言模型 (LLM),结果表明,当前模型难以应对复杂任务,并且即使面对更简单的题目,也常常表现出意想不到的低置信度。DIA 框架为评估模型的解决问题能力、适应性智能以及评估自身局限性的能力设定了一个新标准。该数据集已在项目页面公开发布:https://github.com/DIA-Bench。