摘要
arXiv:2504.01324v1 宣告类型:交叉
摘要:本文是一项开创性工作,旨在解决大型视觉-语言模型(VLMs)的抽象视觉推理(AVR)问题。我们使一个通用的LLaVA-NeXT 7B模型能够感知和推理特定的AVR问题,并超过了开源(如Qwen-2-VL-72B)和闭源的强大VLMs(如GPT-4o)的显著差距。这对于几乎所有的前VLMs在代表性AVR基准上失败或显示出几乎随机的表现而言,是一个巨大的突破。我们的关键成功在于我们创新的数据合成和后训练过程,旨在彻底缓解任务难度并逐步引导模型学习。我们的7B模型也显示了在AVR方面表现出色,而不牺牲常见的多模态理解能力。我们希望本文能在这一领域起到早期努力的作用,并激发进一步的抽象视觉推理研究。