LLM2D

摘要

arXiv:2502.12558v3 宣布类型: replace-cross 摘要：检索增强生成（RAG）在解决长视频理解相关挑战方面展现了巨大的潜力。这些方法可以从长视频中检索有用的关键时刻来完成其呈现的任务，从而使多模态大型语言模型（MLLMs）能够在经济有效的前提下生成高质量的答案。在这项工作中，我们提出了一个名为 MomentSeeker 的综合基准，用于评估检索模型在处理通用长视频时刻检索（LVMR）任务方面的能力。MomentSeeker 提供了三项关键优势。首先，它包含了平均时长超过 500 秒的长视频，使其成为首个专门针对长视频时刻检索的基准。其次，它涵盖了广泛的任务类别（包括时刻搜索、字幕对齐、图像条件下的时刻搜索和视频条件下的时刻搜索）以及多样的应用场景（如体育、电影、动画和第一人称视角），使其成为一个全面的工具，用于评估检索模型的通用 LVMR 表现。此外，评估任务是通过人工注释精心挑选的，确保了评估的可靠性。我们进一步在合成数据上微调了一个基于 MLLM 的 LVMR 检索器，其在我们的基准上显示出了强大的性能。我们使用基于我们基准的多种流行的多模态检索器进行了广泛的实验，结果突显了 LVMR 的挑战以及现存方法的局限性。我们创建的资源将与社区共享，以促进这一领域的未来研究。