LLM2D

摘要

arXiv:2504.01324v1 宣告类型：交叉摘要：本文是一项开创性工作，旨在解决大型视觉-语言模型（VLMs）的抽象视觉推理（AVR）问题。我们使一个通用的LLaVA-NeXT 7B模型能够感知和推理特定的AVR问题，并超过了开源（如Qwen-2-VL-72B）和闭源的强大VLMs（如GPT-4o）的显著差距。这对于几乎所有的前VLMs在代表性AVR基准上失败或显示出几乎随机的表现而言，是一个巨大的突破。我们的关键成功在于我们创新的数据合成和后训练过程，旨在彻底缓解任务难度并逐步引导模型学习。我们的7B模型也显示了在AVR方面表现出色，而不牺牲常见的多模态理解能力。我们希望本文能在这一领域起到早期努力的作用，并激发进一步的抽象视觉推理研究。