摘要
人类拥有多模态的识字能力,使他们能够积极地整合来自各种模态的信息进行推理。面对文本中的词汇歧义等挑战,我们会借助其他模态,例如缩略图或教科书插图来补充。机器是否可以实现类似的多模态理解能力?为了回答这个问题,我们提出了理解双关语的图像解释(UNPIE),这是一个新颖的基准,旨在评估多模态输入在解决词汇歧义中的影响。双关语由于其固有的歧义性,成为此评估的理想主题。我们的数据集包含 1000 个双关语,每个双关语都附带一张解释两种含义的图片。我们通过注释提出了三个多模态挑战,以评估多模态识字的不同方面:双关语定位、消歧和重建。结果表明,在提供视觉语境的情况下,各种苏格拉底模型和视觉语言模型比仅文本模型表现更好,尤其是在任务复杂性增加的情况下。