LLM2D

摘要

arXiv:2501.05205v2 通知类型: 替换-交叉摘要：婴儿在获得语言输入之前就能迅速发展出复杂的视觉理解能力。随着计算机视觉试图复制人类视觉系统，理解婴儿的视觉发展可能提供有价值的见解。在这篇论文中，我们进行了一项跨学科研究，探索了以下问题：是否可以构建一个模仿婴儿学习过程的计算模型，能够发展出超出其已听到词汇范围的更广泛的视觉概念，类似于婴儿自然学习的方式？为了探讨这一问题，我们分析了Vong等人最近在Science上发表的一个模型，该模型是基于一个孩子纵向的第一视角图像与转录的父母言语进行训练的。我们提介了一种无需训练的框架，可以通过该框架发现模型内部表示中隐藏的视觉概念神经元。我们的研究发现这些神经元可以对模型原本词汇表外的对象进行分类。此外，我们将婴儿似模型中的视觉表示与当前的计算机视觉模型，如CLIP或ImageNet预训练模型进行比较，凸显了关键的相似性和差异性。最终，我们的工作通过分析基于婴儿视觉和语言输入训练的计算模型的内部表示，将认知科学与计算机视觉领域结合在一起。