LLM2D
关于时间:动作理解的进展、挑战和展望
About Time: Advances, Challenges, and Outlooks of Action Understanding
作者: Alexandros Stergiou, Ronald Poppe
发布日期: 11/25/2024
arXiv ID: oai:arXiv.org:2411.15106v1

摘要

近年来,视频动作理解取得了令人瞩目的进展。数据集规模的扩大、数据多样性的增加以及计算能力的提升,推动了性能的飞跃和任务的多样化发展。当前的系统能够提供视频场景的粗粒度和细粒度描述,提取与查询对应的片段,合成视频中未观察到的部分,并预测上下文信息。这篇综述全面回顾了各种任务中单模态和多模态动作理解的进展。我们关注普遍存在的挑战,概述了广泛采用的数据集,并对具有开创性的工作进行了综述,重点关注最新的进展。我们大致将时间范围分为三类:(1)对完整观察到的动作的识别任务;(2)对正在进行的部分观察到的动作的预测任务;(3)对后续未观察到的动作的预测任务。这种划分使我们能够识别具体的动作建模和视频表示方面的挑战。最后,我们概述了未来解决当前不足的方向。