摘要
arXiv:2410.19702v2 通知类型: replace-cross
摘要:多模态大型语言模型(MLLMs)在短视频理解方面表现出了令人印象深刻的性能。然而,MLLMs 在理解长视频方面仍然面临挑战。本文提出 TimeSuite,这是一个新的设计方案集合,旨在将现有的短视频 MLLMs 适应于长视频理解,包括一个简单而高效的框架来处理长视频序列、高质量的视频数据集用于 MLLMs 的定位调优,以及一个精心设计的指令调优任务,以在传统 QA 格式中显式地融入定位监督。具体来说,基于 VideoChat,我们提出了一种称为 VideoChat-T 的长视频 MLLM,通过实现标记混洗来压缩长视频标记,并引入了时间自适应位置编码(TAPE)以增强视觉表示的时间意识。同时,我们引入了 TimePro,这是一个综合性的定位为中心的指令调优数据集,包含 9 个任务和 349,000 个高质量的定位注释。值得注意的是,我们设计了一种新的指令调优任务类型,称为时间定位说明词,用于在相应的时间戳预测中进行详细的视频描述。这种显式的时间位置预测将指导 MLLM 在生成描述时正确地关注视觉内容,从而减少由大语言模型引起的幻觉风险。实验结果表明,我们的 TimeSuite 为增强短视频 MLLM 的长视频理解能力提供了一个成功解决方案,分别在 Egoschema 和 VideoMME 的基准上实现了 5.6% 和 6.8% 的改进。此外,VideoChat-T 展示出了稳健的零样本时间定位能力,显著优于现有的最先进的 MLLMs。经过微调后,其性能与传统的监督专家模型相当。