LLM2D

摘要

随着机器智能的发展，测试和比较不同人工智能模型解决问题能力的需求日益增长。然而，目前的基准测试往往过于简单，导致模型表现一致良好，难以区分其能力。此外，基准测试通常依赖于静态的问答对，模型可能会记住或猜测答案。为了解决这些限制，我们引入了动态智能评估 (DIA)，这是一种使用动态问题模板和改进的指标来测试人工智能模型的新方法，涵盖数学、密码学、网络安全和计算机科学等多个学科。配套的 DIA-Bench 数据集包含 150 个多样化且具有挑战性的任务模板，这些模板的参数是可变的，并以文本、PDF、编译后的二进制文件和视觉谜题等多种格式呈现。我们的框架引入了四个新的指标来评估模型在多次尝试中的可靠性和置信度。这些指标揭示，即使是简单的题目，当以不同的形式提出时，也经常会被错误回答，这突出了模型可靠性方面的显著差距。值得注意的是，像 GPT-4o 这样的模型往往会高估其数学能力，而 ChatGPT-4o 则通过有效地使用工具展现了更好的决策能力和性能。我们使用 DIA-Bench 评估了八个最先进的大型语言模型 (LLM)，结果表明，当前模型难以处理复杂任务，并且即使面对较简单的题目，也常常表现出出乎意料的低置信度。DIA 框架为评估模型的解决问题能力、适应性智能以及评估自身局限性的能力设定了新的标准。该数据集已在我们项目的网站上公开发布。