LLM2D

摘要

大型视觉语言模型 (LVLMs) 的发展显著提高了多模态理解能力，然而，由于高质量、大规模数据集的稀缺，视频推理任务仍然面临挑战。现有的视频问答 (VideoQA) 数据集往往依赖于成本高昂的手动标注，粒度不足，或者依赖于冗余的逐帧分析的自动构建方法，限制了其在复杂推理中的可扩展性和有效性。为了解决这些挑战，我们引入了 VideoEspresso，这是一个新颖的数据集，它包含保留了基本空间细节和时间连贯性的 VideoQA 对，以及中间推理步骤的多模态标注。我们的构建流程采用了一种语义感知方法来减少冗余，然后使用 GPT-4o 生成 QA 对。我们进一步开发了视频思想链 (CoT) 标注来丰富推理过程，指导 GPT-4o 从 QA 对和视频内容中提取逻辑关系。为了利用高质量 VideoQA 对的潜力，我们提出了一种混合 LVLMs 协作框架，该框架包含一个帧选择器和一个两阶段指令微调推理 LVLM。该框架自适应地选择核心帧，并使用多模态证据进行 CoT 推理。在针对 9 个流行 LVLMs 的 14 个任务的基准测试中，我们的方法在大多数任务上都优于现有基线，证明了其卓越的视频推理能力。我们的代码和数据集将发布在：https://github.com/hshjerry/VideoEspresso