LLM2D

摘要

arXiv:2503.23125v1 交叉公告类型摘要：视觉世界是基本组成性的。视觉场景由物体及其关系的组合定义。因此，对于计算机视觉系统来说，反映和利用这种组成性以实现稳健且泛化的场景理解是至关重要的。尽管在通用多模态生成模型的发展方面取得了重大进展，包括文本到图像模型和多模态视觉语言模型，但尚不清楚这些系统是否能够准确地生成和解释涉及多个物体及其关系的场景。在本工作中，我们评估了当前一代文本到图像（DALL-E 3）和多模态视觉语言模型（GPT-4V、GPT-4o、Claude Sonnet 3.5、QWEN2-VL-72B 和 InternVL2.5-38B）的组合视觉处理能力，并将这些系统的性能与人类参与者进行了比较。结果表明，这些系统在解决组合性和关系任务方面表现出一定的能力，相较于上一代多模态模型显示了显著的进步，但在整体性能方面仍远低于人类参与者的水平，特别是在涉及多个（>5个）物体和多种关系的复杂场景方面。这些结果强调了进一步向前迈进以实现对视觉场景的组合理解的必要性。