LLM2D

摘要

arXiv:2502.06559v1 宣布类型: 新增摘要: 定量人工智能(AI)基准测试已成为评估AI模型和系统性能、能力和安全性的基本工具。目前，它们正在塑造AI的发展方向，并在监管框架中发挥越来越重要的作用。然而，随着它们影响力的增加，对于这些基准测试如何以及如何影响高度敏感的话题（包括高影响能力、安全性和系统性风险）的关切也随之增加。本文对该领域过去10年中约100项研究进行了跨学科综述，讨论了定量基准测试实践中的缺陷。它将基准测试设计和应用中的许多细节问题（如数据集创建中的偏差、不充分的文档、数据污染以及无法区分信号与噪声）与更广泛的社会技术问题（如过度关注根据单次测试逻辑评估基于文本的AI模型，而未能考虑到AI模型现在越来越多地是多模态的，并与人类和其他技术系统相互作用）结合在一起。我们的综述还指出了当前基准测试实践中的系统缺陷，如动机不一致、构念效度问题、未知的未知因素以及基准测试结果操控问题。此外，它突显了基准测试实践如何受到文化、商业和竞争动态的影响，这些动态通常将最先进的表现置于更广泛的公共利益之上。通过概述现有基准测试程序相关的风险，本文质疑对基准测试过度的信任，并为在复杂的现实场景中提高定量AI基准的问责制和相关性做出了贡献。