摘要
arXiv:2502.11492v1 通知类型: 新
摘要:视觉语言模型(VLMs)在多模态任务中取得了显著进展,但在视觉算术方面却经常遇到困难,难以完成如对象计数或长度比较等看似简单的能力,而这些能力对于相关复杂的任务,如图表理解和几何推理来说是必不可少的。在这项工作中,我们首先通过一系列针对基本视觉算术的探针任务来调查这种缺陷的根本原因。我们的分析表明,虽然预训练的视觉编码器通常能够捕捉到足够的信息,但文本解码器往往无法正确地对其进行算术推理的解码。为此,我们提出了CogAlign,这是一种受皮亚杰认知发展阶段理论启发的新后训练策略。CogAlign 训练 VLMs 识别在视觉变换下的不变属性。我们证明,这种方法在我们提出的探针任务中显著提高了三种不同 VLMs 的性能。此外,CogAlign 在 CHOCOLATE 上平均提升了 4.6%,在 MATH-VISION 上提升了 2.9%,低于监督微调方法所需的训练数据量的 60%,并在性能上超过了或匹配了监督微调方法。这些结果突显了CogAlign 在提高基本视觉算术能力及其向下游任务的迁移方面的有效性与泛化能力。