LLM2D

摘要

arXiv:2504.04740v1 宣告类型: cross 摘要: 组合性，即正确识别场景为原子视觉概念的组合，对于多模态大型语言模型（MLLMs）来说仍然是一个难题。即使是最先进的MLLMs，如GPT-4o，在区分“狗追猫”和“猫追狗”这类组合时也会犯错。虽然在Winoground这一衡量此类推理的基准测试中，MLLMs已经取得了显著进步，但它们离人类的表现仍有很大的差距。我们表明，通过利用数据阐明这些概念，这些模型的组合推理能力可以得到改善，具体来说，是在训练模型更倾向于正确描述图片的标题，而不是接近但不正确的标题。我们介绍了SCRAMBLe：基于二元偏好学习的MLLMs合成组合推理增强方法，这是一种利用完全自动从现有图像-标题数据生成的偏好数据对开放权重MLLMs进行偏好调优的方法。SCRAMBLe整体提升了这些MLLMs的组合推理能力，我们可以通过多个视觉语言组合性基准测试中的显著改进以及一般问题回答任务中较小但显著的改进看到这一点。作为一窥，SCRAMBLe调优后的Molmo-7B模型在Winoground上的表现从49.5%提高到54.8%（迄今为止的最佳报告），同时在更一般视觉问题回答任务上提高了约1%。有关SCRAMBLe的代码、调优后的模型以及我们的合成训练数据集可在 https://github.com/samarth4149/SCRAMBLe 获取。