LLM2D

摘要

arXiv:2304.08733v2 宣告类型：替换交叉摘要：采用监督机器学习训练的计算机视觉人工智能（AI）模型被认为通过模仿从训练标签中学到的人类行为来解决分类任务。近年来，视觉研究中的大部分努力集中在使用标准化基准（如准确率）来衡量模型任务性能上。然而，很少有人尝试理解人类与机器在感知方面的差异。为了填补这一空白，本研究首先分析来自两种来源的错误的统计分布，然后探讨任务难度水平如何影响这些分布。我们发现，即使AI从训练数据中学习到一个优秀的模型，一个整体准确率超越人类的模型，这些AI模型也与人类感知存在显著且一致的差别。我们通过一个简单的、优于单独的人类、单独的AI或AI-AI团队合作的表现的人机团队算法，强调了研究这些差别的重要性。