LLM2D
F$^3$Set: 从视频中分析快速、频繁和细粒度事件的方法
F$^3$Set: Towards Analyzing Fast, Frequent, and Fine-grained Events from Videos
作者: Zhaoyu Liu, Kan Jiang, Murong Ma, Zhe Hou, Yun Lin, Jin Song Dong
发布日期: 4/14/2025
arXiv ID: oai:arXiv.org:2504.08222v1

摘要

arXiv:2504.08222v1 Announce Type: cross 摘要:分析快速、频繁且细粒度(F$^3$)事件在视频分析和多模态LLMs中是一个重大挑战。当前的方法由于运动模糊和细微的视觉差异等挑战,在以高精度识别所有F$^3$标准的事件方面存在困难。为促进视频理解的研究,我们引入了F$^3$Set,这是一个基准,包含用于精确F$^3$事件检测的视频数据集。F$^3$Set中的数据集以其广泛的规模和综合的细节为特点,通常包括超过1000种事件类型,具有精确的时间戳,并支持多层次的粒度。目前,F$^3$Set包含几个体育数据集,而该框架也可以扩展到其他应用。我们在F$^3$Set上评估了流行的时间动作理解方法,揭示了现有技术的重大挑战。此外,我们提出了一种新的方法F$^3$ED,用于F$^3$事件检测,取得了优越的性能。数据集、模型和基准代码可在https://github.com/F3Set/F3Set获取。