摘要
arXiv:2502.11831v1 交叉类型
摘要:我们研究了一般用途的深度神经网络模型在预测自然视频中遮罩区域时对直观物理理解的掌握情况。利用违反期待框架,我们发现,那些在学习表示空间中训练以预测结果的视频预测模型展示了对各种直观物理属性的理解,如物体恒在性和形状一致性。相比之下,在像素空间中进行视频预测和通过文本进行推理的多模态大型语言模型的表现则接近随机水平。我们对这些架构的比较表明,联合学习一个抽象的表示空间并预测感官输入中缺失的部分,类似于预测编码,是获取直观物理理解的充分条件,并且即使在一周的独特视频上进行训练,模型也能超出随机水平的表现。这挑战了核心知识——一套有助于理解世界的先天系统——需要固定在大脑中才能发展出直观物理理解的想法。