LLM2D

摘要

生成式 AI 的各种局限性，例如幻觉和模型故障，使得理解不同模态在视觉语言模型 (VLM) 预测中的作用至关重要。我们的工作研究了图像和文本模态信息的整合如何影响 VLM 在视觉问答 (VQA) 和推理任务中的性能和行为。我们通过答案准确性、推理质量、模型不确定性和模态相关性来衡量这种影响。我们研究了文本和图像模态在不同配置下的相互作用，其中视觉内容对于解决 VQA 任务至关重要。我们的贡献包括：(1) 语义干预 (SI)-VQA 数据集，(2) 在不同模态配置下对各种 VLM 架构进行基准研究，以及 (3) 交互式语义干预 (ISI) 工具。SI-VQA 数据集是基准研究的基础，而 ISI 工具提供了一个界面来测试和应用图像和文本输入中的语义干预，从而实现更细粒度的分析。我们的结果表明，模态之间互补的信息提高了答案和推理质量，而矛盾的信息则损害了模型性能和置信度。图像文本注释对准确性和不确定性的影响很小，略微提高了图像相关性。注意力分析证实了图像输入在 VQA 任务中比文本起主导作用。在这项研究中，我们评估了最先进的 VLM，这些 VLM 允许我们提取每个模态的注意力系数。一个关键发现是 PaliGemma 的有害过度自信，与 LLaVA 模型相比，它存在更高的沉默失败风险。这项工作为严格分析模态集成奠定了基础，并得到了为此目的专门设计的数据集的支持。