摘要
arXiv:2404.18624v4 宣告类型: 更新交叉引用
摘要:视觉和语言模型(VLM)解码器目前在多模态任务中表现最佳。除了答案之外,它们还能在事后解释或基于推理的解释(CoT)设置中生成自然语言解释。然而,在生成答案或解释时,它们是否充分利用了输入的视觉和文本模态尚不清楚。本文我们研究了当VLM在生成解释而非答案时,是否依赖其输入模态的方式有所不同。我们还通过将现有的单模态测试和度量扩展到VLM解码器,评估了VLM解码器在事后解释和基于推理的解释设置中的自我一致性。我们发现,所测试的大多数VLM比大型语言模型(LLMs)更不具有自我一致性。所有测试的VLM解码器中的文本贡献在所有检查的任务中都比图像贡献更重要。然而,当我们比较生成解释与生成答案时,生成解释所需要的图像贡献明显比生成答案更强。这一差异在基于推理的解释(CoT)中比事后解释更显著。最后,我们提供了当前最先进的VLM解码器在VALE Benchmark上的基准测试,此前该基准测试仅限于VLM编码器。我们发现,所测试的VLM解码器在VALE基准测试中仍然在大多数测试现象上存在困难。