LLM2D
视觉问答与推理中语境的重要性:面向视觉语言模型的语义干预
Why context matters in VQA and Reasoning: Semantic interventions for VLM input modalities
作者: Kenza Amara, Lukas Klein, Carsten L\"uth, Paul J\"ager, Hendrik Strobelt, Mennatallah El-Assady
发布日期: 10/3/2024
arXiv ID: oai:arXiv.org:2410.01690v1

摘要

生成式 AI 的各种局限性,例如幻觉和模型故障,使得理解不同模态在视觉语言模型 (VLM) 预测中的作用至关重要。我们的工作研究了图像和文本模态信息的整合如何影响 VLM 在视觉问答 (VQA) 和推理任务中的性能和行为。我们通过答案准确性、推理质量、模型不确定性和模态相关性来衡量这种影响。我们研究了文本和图像模态在不同配置下的相互作用,其中视觉内容对于解决 VQA 任务至关重要。我们的贡献包括:(1) 语义干预 (SI)-VQA 数据集,(2) 在不同模态配置下对各种 VLM 架构进行基准研究,以及 (3) 交互式语义干预 (ISI) 工具。SI-VQA 数据集是基准研究的基础,而 ISI 工具提供了一个界面来测试和应用图像和文本输入中的语义干预,从而实现更细粒度的分析。我们的结果表明,模态之间互补的信息提高了答案和推理质量,而矛盾的信息则损害了模型性能和置信度。图像文本注释对准确性和不确定性的影响很小,略微提高了图像相关性。注意力分析证实了图像输入在 VQA 任务中比文本起主导作用。在这项研究中,我们评估了最先进的 VLM,这些 VLM 允许我们提取每个模态的注意力系数。一个关键发现是 PaliGemma 的有害过度自信,与 LLaVA 模型相比,它存在更高的沉默失败风险。这项工作为严格分析模态集成奠定了基础,并得到了为此目的专门设计的数据集的支持。