LLM2D

摘要

arXiv:2504.08222v1 Announce Type: cross 摘要：分析快速、频繁且细粒度（F$^3$）事件在视频分析和多模态LLMs中是一个重大挑战。当前的方法由于运动模糊和细微的视觉差异等挑战，在以高精度识别所有F$^3$标准的事件方面存在困难。为促进视频理解的研究，我们引入了F$^3$Set，这是一个基准，包含用于精确F$^3$事件检测的视频数据集。F$^3$Set中的数据集以其广泛的规模和综合的细节为特点，通常包括超过1000种事件类型，具有精确的时间戳，并支持多层次的粒度。目前，F$^3$Set包含几个体育数据集，而该框架也可以扩展到其他应用。我们在F$^3$Set上评估了流行的时间动作理解方法，揭示了现有技术的重大挑战。此外，我们提出了一种新的方法F$^3$ED，用于F$^3$事件检测，取得了优越的性能。数据集、模型和基准代码可在https://github.com/F3Set/F3Set获取。