摘要
当前用于评估视觉语言模型 (VLMs) 的基准测试往往无法彻底评估模型理解和处理复杂视觉和文本内容的能力。它们通常侧重于简单的任务,这些任务不需要深度推理或整合多种数据模式来解决原始问题。为了解决这一差距,我们引入了 PARROT-360V 基准测试,这是一个新颖而全面的基准测试,包含 2487 个具有挑战性的视觉谜题,旨在测试 VLMs 在复杂视觉推理任务上的能力。我们使用 PARROT-360V 评估了领先的模型:GPT-4o、Claude-3.5-Sonnet 和 Gemini-1.5-Pro,以评估它们结合视觉线索和语言技能解决任务的能力,其方式类似于人类解决问题。我们的研究结果揭示了一个显著的性能差距:最先进的模型在我们的基准测试中的得分在 28% 到 56% 之间,远低于它们在流行基准测试中的表现。这突显了当前 VLMs 在处理复杂的多步骤推理任务方面的局限性,并强调了需要更强大的评估框架来推动该领域发展。