摘要
基于视觉语言模型(VLM)的机器人能否在检测到湿滑地板时提醒我们注意滑倒的风险?最近的 VLM 表现出了令人印象深刻的能力,但它们推断结果和原因的能力仍未得到充分探索。为了解决这个问题,我们引入了 NL-Eye,这是一个旨在评估 VLM 视觉反绎推理能力的基准。NL-Eye 将反绎自然语言推理(NLI)任务改编到视觉领域,要求模型根据前提图像评估假设图像的合理性并解释其决策。NL-Eye 包含 350 个精心策划的三元组示例(1050 张图像),涵盖各种推理类别:物理、功能、逻辑、情感、文化和社会。数据整理过程涉及两个步骤——编写文本描述和使用文生图模型生成图像,这两个步骤都需要大量的人工参与以确保高质量和具有挑战性的场景。我们的实验表明,VLM 在 NL-Eye 上表现出明显困难,通常表现为随机基线水平,而人类在合理性预测和解释质量方面都表现出色。这表明现代 VLM 的反绎推理能力存在缺陷。NL-Eye 代表着朝着开发能够进行强大的多模态推理以用于现实世界应用(包括事故预防机器人和生成的视频验证)的 VLM 的方向迈出的关键一步。