LLM2D

摘要

arXiv:2501.05205v4 公告类型：替换-交叉摘要：婴儿能够迅速发展出复杂的视觉理解，甚至在获得语言技能之前就已经具备。随着计算机视觉试图复制人类视觉系统，理解婴儿的视觉发展可能提供有价值的洞见。在本文中，我们进行了一项跨学科研究，试图回答这个问题：模仿婴儿学习过程的计算模型是否能够发展出超越其已听过的词汇的更广泛视觉概念，类似于婴儿自然学习的方式？为了探索这个问题，我们分析了Vong等人在《科学》杂志上最近发表的模型，该模型是基于单个儿童的纵向主观视角影像与转录的父母语言描述进行训练的。我们进行了神经元标记，以识别模型内部表示中隐藏的视觉概念神经元。然后，我们展示了这些神经元可以识别模型原始词汇之外的对象。此外，我们比较了婴儿模型和现代计算机视觉模型（如CLIP和ImageNet预训练模型）之间的表示差异。最终，我们的研究将认知科学与计算机视觉相结合，通过分析基于婴儿视觉和语言输入训练的计算模型的内部表示。我们的代码可在 https://github.com/Kexueyi/discover_infant_vis 获取。