摘要
arXiv:2504.09426v1 宣传类型:交叉
摘要:人类婴儿可以从极少量的输入中迅速发展出视觉推理能力,这表明发展启发式的预训练可以显著提高视觉语言模型(VLMs)的效率。虽然最近的努力已经利用了像SAYCam这样的婴儿启发式数据集,但现有的评估基准仍然存在偏差——它们要么过于简单、范围狭窄,要么定制化于大规模预训练模型。此外,仅在婴儿数据上进行训练忽视了婴儿自然学习所需更广泛、更多样化的输入。为了解决这些局限性,我们提出了BabyVLM,这是一种新的框架,包括全面的领域内评估基准和通过现有数据集的儿童导向转换创建的合成训练数据集。我们展示了使用我们合成数据集训练的VLM在BabyVLM任务上的表现优于仅使用SAYCam或SAYCam规模的通用数据训练的模型。因此,BabyVLM提供了一个稳健的发展对齐评估工具,并展示了通过精心策划的数据训练的小型模型如何有效泛化,从而开辟了数据高效视觉语言学习范式的路径。