摘要
arXiv:2504.13180v1
Announce Type: cross
摘要:视觉语言模型是计算机视觉研究的重要组成部分,但许多高性能的模型仍然是闭源软件,使得对其数据、设计和训练方法保密。研究社区对此作出回应,通过从黑盒模型中提取知识来标注训练数据,从而在基准测试中取得优异成果,但以可量化的科学进步为代价。然而,在不了解教师模型及其数据源的情况下,科学进步仍然难以衡量。本文中,我们研究如何在一个完全开放和可重复的框架中构建感知语言模型(PLM),以实现影像和视频理解研究的透明化。我们分析标准训练管道,不依赖于专有模型的蒸馏,并探索大规模合成数据,以识别视频理解领域的关键数据缺口,特别是细节视频理解。为了解决这些缺口,我们发布了280万个人工标记的细粒度视频问答实例以及时空定位的视频描述。此外,我们引入了PLM-VideoBench,这是一个用于评估具有挑战性的视频理解任务的套件,重点关注对视频中“什么”、“哪里”、“何时”和“如何”的推理能力。我们通过提供数据、训练方法、代码及模型,使我们的工作能够完全复现。