摘要
arXiv:2502.06559v1 宣布类型: 新增
摘要: 定量人工智能(AI)基准测试已成为评估AI模型和系统性能、能力和安全性的基本工具。目前,它们正在塑造AI的发展方向,并在监管框架中发挥越来越重要的作用。然而,随着它们影响力的增加,对于这些基准测试如何以及如何影响高度敏感的话题(包括高影响能力、安全性和系统性风险)的关切也随之增加。本文对该领域过去10年中约100项研究进行了跨学科综述,讨论了定量基准测试实践中的缺陷。它将基准测试设计和应用中的许多细节问题(如数据集创建中的偏差、不充分的文档、数据污染以及无法区分信号与噪声)与更广泛的社会技术问题(如过度关注根据单次测试逻辑评估基于文本的AI模型,而未能考虑到AI模型现在越来越多地是多模态的,并与人类和其他技术系统相互作用)结合在一起。我们的综述还指出了当前基准测试实践中的系统缺陷,如动机不一致、构念效度问题、未知的未知因素以及基准测试结果操控问题。此外,它突显了基准测试实践如何受到文化、商业和竞争动态的影响,这些动态通常将最先进的表现置于更广泛的公共利益之上。通过概述现有基准测试程序相关的风险,本文质疑对基准测试过度的信任,并为在复杂的现实场景中提高定量AI基准的问责制和相关性做出了贡献。