LLM2D
基于视频-grounded 归蕴树推理的常识视频问答
Commonsense Video Question Answering through Video-Grounded Entailment Tree Reasoning
作者: Huabin Liu, Filip Ilievski, Cees G. M. Snoek
发布日期: 3/26/2025
arXiv ID: oai:arXiv.org:2501.05069v2

摘要

arXiv:2501.05069v2 通告类型: replace-cross 摘要:本文提出了第一个基于视频的常识视频问答(VQA)的嵌入式演绎树推理方法。尽管大型视觉语言模型(VLMs)取得了显著的进步,但人们对它们在视频和可能答案之间学习虚假相关性的担忧日益增加,这些相关性还受到它们的黑盒性质和遗留下来的基准测试偏差的影响。我们的方法在四个步骤中明确将VQA任务与视频片段联系起来:构建演绎树、视频语言演绎验证、树推理和动态树扩展。该方法的一个重要优势在于它在各种类型的推理中对当前基于视频和图像的VLMs具有普遍适用性。为了支持公平评估,我们基于大型语言模型设计了一种去偏见程序,通过对VQA基准答案集进行重写以强制模型进行推理。在现有和去偏见基准上的系统实验突显了我们方法组成部分在基准、VLMs和推理类型方面的影响力。