LLM2D
PerceptionLM:详细视觉理解的开源数据和模型
PerceptionLM: Open-Access Data and Models for Detailed Visual Understanding
作者: Jang Hyun Cho, Andrea Madotto, Effrosyni Mavroudi, Triantafyllos Afouras, Tushar Nagarajan, Muhammad Maaz, Yale Song, Tengyu Ma, Shuming Hu, Suyog Jain, Miguel Martin, Huiyu Wang, Hanoona Rasheed, Peize Sun, Po-Yao Huang, Daniel Bolya, Nikhila Ravi, Shashank Jain, Tammy Stark, Shane Moon, Babak Damavandi, Vivian Lee, Andrew Westbury, Salman Khan, Philipp Kr\"ahenb\"uhl, Piotr Doll\'ar, Lorenzo Torresani, Kristen Grauman, Christoph Feichtenhofer
发布日期: 4/18/2025
arXiv ID: oai:arXiv.org:2504.13180v1

摘要

arXiv:2504.13180v1 Announce Type: cross 摘要:视觉语言模型是计算机视觉研究的重要组成部分,但许多高性能的模型仍然是闭源软件,使得对其数据、设计和训练方法保密。研究社区对此作出回应,通过从黑盒模型中提取知识来标注训练数据,从而在基准测试中取得优异成果,但以可量化的科学进步为代价。然而,在不了解教师模型及其数据源的情况下,科学进步仍然难以衡量。本文中,我们研究如何在一个完全开放和可重复的框架中构建感知语言模型(PLM),以实现影像和视频理解研究的透明化。我们分析标准训练管道,不依赖于专有模型的蒸馏,并探索大规模合成数据,以识别视频理解领域的关键数据缺口,特别是细节视频理解。为了解决这些缺口,我们发布了280万个人工标记的细粒度视频问答实例以及时空定位的视频描述。此外,我们引入了PLM-VideoBench,这是一个用于评估具有挑战性的视频理解任务的套件,重点关注对视频中“什么”、“哪里”、“何时”和“如何”的推理能力。我们通过提供数据、训练方法、代码及模型,使我们的工作能够完全复现。