摘要
arXiv:2504.19627v1 Announce Type: cross
摘要:大型视觉-语言模型(LVLMs)由于其强大的视觉-语言推理能力,在诸如嵌入式智能等现实世界的AI任务中占据关键地位。然而,当前的LVLMs在处理整个图像时,与人类在概念层次上分析信息和生成内容的方式相比,效率低下。人类能够以最小的努力提取相关的视觉概念,而LVLMs在处理整个图像时则需要逐token处理,这导致了效率上的不足。这种不足源于缺乏一个视觉概念模型,限制了LVLMs在实际应用中的可用性。为了解决这个问题,我们提出了VCM,一个端到端的自监督视觉概念建模框架。VCM利用了跨多个采样实例的隐式对比学习和视觉-语言微调,构建了一个无需昂贵的概念级标注的视觉概念模型。我们的结果显示,VCM显著降低了计算成本(例如,LLaVA-1.5-7B的FLOPs减少了85%),同时在多种图像理解任务中保持了强大的性能。此外,VCM还增强了视觉编码器在经典视觉概念感知任务中的能力。广泛的定量和定性实验验证了VCM的有效性和效率。