LLM2D

摘要

arXiv:2410.19702v2 通知类型: replace-cross 摘要：多模态大型语言模型（MLLMs）在短视频理解方面表现出了令人印象深刻的性能。然而，MLLMs 在理解长视频方面仍然面临挑战。本文提出 TimeSuite，这是一个新的设计方案集合，旨在将现有的短视频 MLLMs 适应于长视频理解，包括一个简单而高效的框架来处理长视频序列、高质量的视频数据集用于 MLLMs 的定位调优，以及一个精心设计的指令调优任务，以在传统 QA 格式中显式地融入定位监督。具体来说，基于 VideoChat，我们提出了一种称为 VideoChat-T 的长视频 MLLM，通过实现标记混洗来压缩长视频标记，并引入了时间自适应位置编码（TAPE）以增强视觉表示的时间意识。同时，我们引入了 TimePro，这是一个综合性的定位为中心的指令调优数据集，包含 9 个任务和 349,000 个高质量的定位注释。值得注意的是，我们设计了一种新的指令调优任务类型，称为时间定位说明词，用于在相应的时间戳预测中进行详细的视频描述。这种显式的时间位置预测将指导 MLLM 在生成描述时正确地关注视觉内容，从而减少由大语言模型引起的幻觉风险。实验结果表明，我们的 TimeSuite 为增强短视频 MLLM 的长视频理解能力提供了一个成功解决方案，分别在 Egoschema 和 VideoMME 的基准上实现了 5.6% 和 6.8% 的改进。此外，VideoChat-T 展示出了稳健的零样本时间定位能力，显著优于现有的最先进的 MLLMs。经过微调后，其性能与传统的监督专家模型相当。