LLM2D

摘要

arXiv:2502.07277v1 Announce Type: cross 摘要：视频已成为我们在网络上分享信息的主要方式，这也是为什么对能够分析和理解视频内容的算法需求激增的原因。随着视频继续主导数字景观，这一趋势将不断延续。这些算法将从视频中提取和分类相关的特征，并使用这些特征来描述视频中的事件和对象。深度神经网络在特征提取和视频描述领域展现了令人鼓舞的结果。本文将探讨视频中的时空特征以及视频理解领域深度神经网络的最新进展。我们将回顾视频理解模型的主要趋势及其结构设计、主要问题以及一些提供的解决方案。我们还将回顾并比较重要的视频理解和动作识别数据集。