LLM2D

摘要

arXiv:2404.18624v4 宣告类型: 更新交叉引用摘要：视觉和语言模型（VLM）解码器目前在多模态任务中表现最佳。除了答案之外，它们还能在事后解释或基于推理的解释（CoT）设置中生成自然语言解释。然而，在生成答案或解释时，它们是否充分利用了输入的视觉和文本模态尚不清楚。本文我们研究了当VLM在生成解释而非答案时，是否依赖其输入模态的方式有所不同。我们还通过将现有的单模态测试和度量扩展到VLM解码器，评估了VLM解码器在事后解释和基于推理的解释设置中的自我一致性。我们发现，所测试的大多数VLM比大型语言模型（LLMs）更不具有自我一致性。所有测试的VLM解码器中的文本贡献在所有检查的任务中都比图像贡献更重要。然而，当我们比较生成解释与生成答案时，生成解释所需要的图像贡献明显比生成答案更强。这一差异在基于推理的解释（CoT）中比事后解释更显著。最后，我们提供了当前最先进的VLM解码器在VALE Benchmark上的基准测试，此前该基准测试仅限于VLM编码器。我们发现，所测试的VLM解码器在VALE基准测试中仍然在大多数测试现象上存在困难。