LLM2D
VideoEspresso:基于核心帧选择的大规模细粒度视频推理链式思维数据集
VideoEspresso: A Large-Scale Chain-of-Thought Dataset for Fine-Grained Video Reasoning via Core Frame Selection
作者: Songhao Han, Wei Huang, Hairong Shi, Le Zhuo, Xiu Su, Shifeng Zhang, Xu Zhou, Xiaojuan Qi, Yue Liao, Si Liu
发布日期: 11/25/2024
arXiv ID: oai:arXiv.org:2411.14794v1

摘要

大型视觉语言模型 (LVLMs) 的发展显著提高了多模态理解能力,然而,由于高质量、大规模数据集的稀缺,视频推理任务仍然面临挑战。现有的视频问答 (VideoQA) 数据集往往依赖于成本高昂的手动标注,粒度不足,或者依赖于冗余的逐帧分析的自动构建方法,限制了其在复杂推理中的可扩展性和有效性。为了解决这些挑战,我们引入了 VideoEspresso,这是一个新颖的数据集,它包含保留了基本空间细节和时间连贯性的 VideoQA 对,以及中间推理步骤的多模态标注。我们的构建流程采用了一种语义感知方法来减少冗余,然后使用 GPT-4o 生成 QA 对。我们进一步开发了视频思想链 (CoT) 标注来丰富推理过程,指导 GPT-4o 从 QA 对和视频内容中提取逻辑关系。为了利用高质量 VideoQA 对的潜力,我们提出了一种混合 LVLMs 协作框架,该框架包含一个帧选择器和一个两阶段指令微调推理 LVLM。该框架自适应地选择核心帧,并使用多模态证据进行 CoT 推理。在针对 9 个流行 LVLMs 的 14 个任务的基准测试中,我们的方法在大多数任务上都优于现有基线,证明了其卓越的视频推理能力。我们的代码和数据集将发布在:https://github.com/hshjerry/VideoEspresso