摘要
arXiv:2304.08733v2 宣告类型:替换交叉
摘要:采用监督机器学习训练的计算机视觉人工智能(AI)模型被认为通过模仿从训练标签中学到的人类行为来解决分类任务。近年来,视觉研究中的大部分努力集中在使用标准化基准(如准确率)来衡量模型任务性能上。然而,很少有人尝试理解人类与机器在感知方面的差异。为了填补这一空白,本研究首先分析来自两种来源的错误的统计分布,然后探讨任务难度水平如何影响这些分布。我们发现,即使AI从训练数据中学习到一个优秀的模型,一个整体准确率超越人类的模型,这些AI模型也与人类感知存在显著且一致的差别。我们通过一个简单的、优于单独的人类、单独的AI或AI-AI团队合作的表现的人机团队算法,强调了研究这些差别的重要性。