LLM2D
MomentsSeeker:长视频中时刻检索的综合基准和强大基线
MomentSeeker: A Comprehensive Benchmark and A Strong Baseline For Moment Retrieval Within Long Videos
作者: Huaying Yuan, Jian Ni, Yueze Wang, Junjie Zhou, Zhengyang Liang, Zheng Liu, Zhao Cao, Zhicheng Dou, Ji-Rong Wen
发布日期: 2/19/2025
arXiv ID: oai:arXiv.org:2502.12558v1

摘要

arXiv:2502.12558v1 声称类型: cross 摘要:检索增强生成(RAG)在解决长视频理解相关挑战方面展现了巨大的潜力。这些方法可以从长视频中检索出对它们所展示的任务有用的时刻,从而使多模态大规模语言模型(MLLM)以经济有效的方式生成高质量的回答。在本文中,我们提出了 MomentSeeker,这是一个全面的基准,用于评估检索模型在处理通用长视频时刻检索(LVMR)任务方面的性能。MomentSeeker 提供了三个主要优势。首先,它包含平均时长超过 500 秒的长视频,使其成为第一个专门用于长视频时刻检索的基准。其次,它涵盖了广泛的任务类别(包括时刻搜索、字幕对齐、图像条件时刻搜索和视频条件时刻搜索)和多种应用场景(例如体育、电影、卡通和第一人称视角),使其成为评估检索模型一般 LVMR 性能的综合工具。此外,通过人工标注精心设计评估任务,确保评估的可靠性。我们进一步在合成数据上对基于 MLLM 的 LVMR 检索器进行了微调,其在我们的基准上展示了强大的性能。我们使用我们的基准对各种流行的多模态检索器进行了广泛实验,其结果突显了 LVMR 的挑战和现有方法的局限性。我们创建的资源将与社区共享,以促进未来对该领域的研究。