摘要
arXiv:2211.01201v5 通知类型: 替换-交叉
摘要:今天的计算机视觉模型在多种视觉任务上实现了人类或接近人类的性能。然而,它们的架构、数据和学习算法与导致人类视觉的那些存在许多不同之处。在本文中,我们研究了影响神经网络学习的表示与从行为反应推断出的人类心理表示之间对齐的因素。我们发现,模型规模和架构对与人类行为反应的对齐几乎没有影响,而训练数据集和目标函数都对其产生了更大的影响。这些发现在这三个使用两种不同任务收集的人类相似性判断数据集中是一致的。从一个数据集中通过行为反应学习的神经网络表示进行的线性变换,在其他两个数据集的人类相似性判断中显著提高了对齐程度。此外,我们发现一些人类概念如食物和动物由神经网络很好地表示,而其他如皇室或与体育相关的物体则没有。总体而言,虽然在更大、更多样化的数据集上训练的模型与仅在ImageNet上训练的模型相比,在对齐度上更好,但我们的结果表明,仅仅通过扩展规模不太可能足以训练出具有与人类使用的概念表示相匹配的概念表示的神经网络。