LLM2D

摘要

arXiv:2412.13845v2 通知类型: 替换-交叉摘要：大规模语言模型（LLMs）已经革新了基于视频的计算机视觉应用，包括动作识别、异常检测和视频摘要。视频本身带来了独特挑战，结合了空间复杂性和静态图像或文本数据中缺失的时间动态性。目前使用LLMs进行视频理解的方法往往依赖于预训练的视频编码器提取时空特征，并依赖于文本编码器捕获语义意义。这些表示在LLM框架内进行整合，使得跨不同视频任务进行多模态推理成为可能。然而，一个关键问题仍然存在：LLMs能否真正理解时间的概念，它们在视频中如何有效地推理解时间关系？本研究批判性地探讨了LLMs在视频处理中的作用，具体关注其时间推理能力。我们识别了LLMs与预训练编码器之间交互的关键限制，揭示了它们在建模长期依赖性和抽象因果关系等时间概念方面的局限性。此外，我们分析了现有视频数据集带来的挑战，包括偏差、缺乏时间注释以及特定领域限制，这些都会限制LLMs的时间理解能力。为了解决这些限制，我们探讨了令人期待的未来方向，包括LLMs和编码器的协同进化、带有显式时间标签的丰富数据集的开发以及将空间、时间和语义推理结合的创新架构。通过解决这些挑战，我们旨在促进LLMs的时间理解，从而充分发挥其在视频分析以及其他方面的潜力。我们论文的GitHub仓库可以在https://github.com/Darcyddx/Video-LLM找到。