摘要
arXiv:2504.08222v2 通告类型: replace-cross
摘要:分析快速、频繁且细节丰富的(F³)事件在视频分析和多模态LLM中提出了重大挑战。当前的方法由于运动模糊和细微的视觉差异等问题,在识别满足所有F³标准的事件时难以达到高精度。为了促进视频理解领域的研究,我们引入了F³Set,这是一个用于精确F³事件检测的数据集基准。F³Set中的数据集以其广泛的规模和详尽的细节为特点,通常包含超过1000种事件类型,具有精确的时间戳,并支持多层次的粒度。目前,F³Set包含了多个体育数据集,该框架还可扩展到其他应用领域。我们在F³Set上评估了流行的时空动作理解方法,揭示了现有技术存在的重大挑战。此外,我们还提出了一种新的方法F³ED,用于F³事件检测,实现了卓越的性能。数据集、模型和基准代码可在https://github.com/F3Set/F3Set获取。