LLM2D

摘要

arXiv:2504.08222v2 通告类型: replace-cross 摘要：分析快速、频繁且细节丰富的(F³)事件在视频分析和多模态LLM中提出了重大挑战。当前的方法由于运动模糊和细微的视觉差异等问题，在识别满足所有F³标准的事件时难以达到高精度。为了促进视频理解领域的研究，我们引入了F³Set，这是一个用于精确F³事件检测的数据集基准。F³Set中的数据集以其广泛的规模和详尽的细节为特点，通常包含超过1000种事件类型，具有精确的时间戳，并支持多层次的粒度。目前，F³Set包含了多个体育数据集，该框架还可扩展到其他应用领域。我们在F³Set上评估了流行的时空动作理解方法，揭示了现有技术存在的重大挑战。此外，我们还提出了一种新的方法F³ED，用于F³事件检测，实现了卓越的性能。数据集、模型和基准代码可在https://github.com/F3Set/F3Set获取。