LLM2D

摘要

arXiv:2504.13180v1 Announce Type: cross 摘要：视觉语言模型是计算机视觉研究的重要组成部分，但许多高性能的模型仍然是闭源软件，使得对其数据、设计和训练方法保密。研究社区对此作出回应，通过从黑盒模型中提取知识来标注训练数据，从而在基准测试中取得优异成果，但以可量化的科学进步为代价。然而，在不了解教师模型及其数据源的情况下，科学进步仍然难以衡量。本文中，我们研究如何在一个完全开放和可重复的框架中构建感知语言模型（PLM），以实现影像和视频理解研究的透明化。我们分析标准训练管道，不依赖于专有模型的蒸馏，并探索大规模合成数据，以识别视频理解领域的关键数据缺口，特别是细节视频理解。为了解决这些缺口，我们发布了280万个人工标记的细粒度视频问答实例以及时空定位的视频描述。此外，我们引入了PLM-VideoBench，这是一个用于评估具有挑战性的视频理解任务的套件，重点关注对视频中“什么”、“哪里”、“何时”和“如何”的推理能力。我们通过提供数据、训练方法、代码及模型，使我们的工作能够完全复现。