LLM2D

摘要

近年来，视频动作理解取得了令人瞩目的进展。数据集规模的扩大、数据多样性的增加以及计算能力的提升，推动了性能的飞跃和任务的多样化发展。当前的系统能够提供视频场景的粗粒度和细粒度描述，提取与查询对应的片段，合成视频中未观察到的部分，并预测上下文信息。这篇综述全面回顾了各种任务中单模态和多模态动作理解的进展。我们关注普遍存在的挑战，概述了广泛采用的数据集，并对具有开创性的工作进行了综述，重点关注最新的进展。我们大致将时间范围分为三类：（1）对完整观察到的动作的识别任务；（2）对正在进行的部分观察到的动作的预测任务；（3）对后续未观察到的动作的预测任务。这种划分使我们能够识别具体的动作建模和视频表示方面的挑战。最后，我们概述了未来解决当前不足的方向。