LLM2D

摘要

arXiv:2502.12558v1 声称类型: cross 摘要：检索增强生成（RAG）在解决长视频理解相关挑战方面展现了巨大的潜力。这些方法可以从长视频中检索出对它们所展示的任务有用的时刻，从而使多模态大规模语言模型（MLLM）以经济有效的方式生成高质量的回答。在本文中，我们提出了 MomentSeeker，这是一个全面的基准，用于评估检索模型在处理通用长视频时刻检索（LVMR）任务方面的性能。MomentSeeker 提供了三个主要优势。首先，它包含平均时长超过 500 秒的长视频，使其成为第一个专门用于长视频时刻检索的基准。其次，它涵盖了广泛的任务类别（包括时刻搜索、字幕对齐、图像条件时刻搜索和视频条件时刻搜索）和多种应用场景（例如体育、电影、卡通和第一人称视角），使其成为评估检索模型一般 LVMR 性能的综合工具。此外，通过人工标注精心设计评估任务，确保评估的可靠性。我们进一步在合成数据上对基于 MLLM 的 LVMR 检索器进行了微调，其在我们的基准上展示了强大的性能。我们使用我们的基准对各种流行的多模态检索器进行了广泛实验，其结果突显了 LVMR 的挑战和现有方法的局限性。我们创建的资源将与社区共享，以促进未来对该领域的研究。