LLM2D

摘要

人类拥有多模态的识字能力，使他们能够积极地整合来自各种模态的信息进行推理。面对文本中的词汇歧义等挑战，我们会借助其他模态，例如缩略图或教科书插图来补充。机器是否可以实现类似的多模态理解能力？为了回答这个问题，我们提出了理解双关语的图像解释（UNPIE），这是一个新颖的基准，旨在评估多模态输入在解决词汇歧义中的影响。双关语由于其固有的歧义性，成为此评估的理想主题。我们的数据集包含 1000 个双关语，每个双关语都附带一张解释两种含义的图片。我们通过注释提出了三个多模态挑战，以评估多模态识字的不同方面：双关语定位、消歧和重建。结果表明，在提供视觉语境的情况下，各种苏格拉底模型和视觉语言模型比仅文本模型表现更好，尤其是在任务复杂性增加的情况下。