LLM2D

摘要

arXiv:2504.19627v1 Announce Type: cross 摘要：大型视觉-语言模型（LVLMs）由于其强大的视觉-语言推理能力，在诸如嵌入式智能等现实世界的AI任务中占据关键地位。然而，当前的LVLMs在处理整个图像时，与人类在概念层次上分析信息和生成内容的方式相比，效率低下。人类能够以最小的努力提取相关的视觉概念，而LVLMs在处理整个图像时则需要逐token处理，这导致了效率上的不足。这种不足源于缺乏一个视觉概念模型，限制了LVLMs在实际应用中的可用性。为了解决这个问题，我们提出了VCM，一个端到端的自监督视觉概念建模框架。VCM利用了跨多个采样实例的隐式对比学习和视觉-语言微调，构建了一个无需昂贵的概念级标注的视觉概念模型。我们的结果显示，VCM显著降低了计算成本（例如，LLaVA-1.5-7B的FLOPs减少了85%），同时在多种图像理解任务中保持了强大的性能。此外，VCM还增强了视觉编码器在经典视觉概念感知任务中的能力。广泛的定量和定性实验验证了VCM的有效性和效率。