LLM2D
从秒到小时:对多模态大型语言模型在长视频理解方面的全面回顾
From Seconds to Hours: Reviewing MultiModal Large Language Models on Comprehensive Long Video Understanding
作者: Heqing Zou (Xiao Jie), Tianze Luo (Xiao Jie), Guiyang Xie (Xiao Jie), Victor (Xiao Jie), Zhang, Fengmao Lv, Guangcong Wang, Juanyang Chen, Zhuochen Wang, Hansheng Zhang, Huaijian Zhang
发布日期: 9/30/2024
arXiv ID: oai:arXiv.org:2409.18938v1

摘要

大型语言模型 (LLMs) 与视觉编码器的集成在视觉理解任务中最近展现出令人鼓舞的性能,利用其固有的理解和生成人类语言的能力进行视觉推理。鉴于视觉数据的多样性,多模态大型语言模型 (MM-LLMs) 在模型设计和训练方面表现出差异,以理解图像、短视频和长视频。我们的论文重点关注与静态图像和短视频理解相比,长视频理解带来的重大差异和独特挑战。与静态图像不同,短视频包含具有空间信息和事件内时间信息的连续帧,而长视频包含具有事件间和长期时间信息的多个事件。在本综述中,我们旨在追踪和总结 MM-LLMs 从图像理解到长视频理解的进展。我们回顾了各种视觉理解任务之间的差异,并强调了长视频理解中的挑战,包括更细粒度的时空细节、动态事件和长期依赖关系。然后,我们详细总结了 MM-LLMs 在模型设计和训练方法方面的进展,以理解长视频。最后,我们比较了现有 MM-LLMs 在不同长度的视频理解基准上的性能,并讨论了 MM-LLMs 在长视频理解方面的潜在未来方向。