LLM2D

摘要

arXiv:2405.01474v3 公告类型: replace-cross 摘要：大型视觉-语言模型（VLMs）在需要对图像和文本中的精细含义有深刻理解的任务中表现出强大的能力，例如视觉问答或视觉蕴含。然而，这些模型在面对包含比喻性含义的图像和字幕（如隐喻或幽默）时的能力几乎没有探索。为了解决这个问题，我们提出了一种新的任务框架，将比喻性含义理解问题框架化为一种可解释的视觉蕴含任务，在该任务中，模型需要预测图像（前提）是否蕴含字幕（假设），并用文本解释来证明预测的标签。这些比喻现象可以出现在图像中、字幕中或两者都有。通过人机合作的方式，我们构建了配套的专家验证数据集V-FLUTE，包含6,027个{图像、字幕、标签、解释}实例，覆盖五种不同的比喻现象：隐喻、明喻、成语、反话和幽默。通过自动评估，我们发现VLMs难以从字面上的意思推广到比喻性含义，特别是在图像中存在这种含义时更是如此。此外，我们通过人工评估识别了模型推理中常见的错误类型（幻觉和不完整或不准确的推理），这些错误跨越了不同类型的模型。