LLM2D

摘要

大型语言模型 (LLMs) 与视觉编码器的集成在视觉理解任务中最近展现出令人鼓舞的性能，利用其固有的理解和生成人类语言的能力进行视觉推理。鉴于视觉数据的多样性，多模态大型语言模型 (MM-LLMs) 在模型设计和训练方面表现出差异，以理解图像、短视频和长视频。我们的论文重点关注与静态图像和短视频理解相比，长视频理解带来的重大差异和独特挑战。与静态图像不同，短视频包含具有空间信息和事件内时间信息的连续帧，而长视频包含具有事件间和长期时间信息的多个事件。在本综述中，我们旨在追踪和总结 MM-LLMs 从图像理解到长视频理解的进展。我们回顾了各种视觉理解任务之间的差异，并强调了长视频理解中的挑战，包括更细粒度的时空细节、动态事件和长期依赖关系。然后，我们详细总结了 MM-LLMs 在模型设计和训练方法方面的进展，以理解长视频。最后，我们比较了现有 MM-LLMs 在不同长度的视频理解基准上的性能，并讨论了 MM-LLMs 在长视频理解方面的潜在未来方向。