摘要
arXiv:2502.06814v1 类型: cross
摘要: 我们介绍了一种简单的监督微调(SFT)方法Lavender,该方法通过利用先进的图像生成模型(如Stable Diffusion)来增强高级视觉语言模型(VLM)的性能。具体来说,Lavender在SFT期间将VLM变压器中的文本-视觉注意力与Stable Diffusion中使用的等效注意力对齐,而不是对独立的编码器进行适应。这种对齐丰富了模型的视觉理解,显著提升了分布内外任务的性能。Lavender只需要0.13百万个训练样本,相当于典型大规模SFT数据集的2.5%,在标准硬件(8个GPU)上一天内即可完成微调。它始终可以提高最先进的开源多模态LLM(例如Llama-3.2-11B,MiniCPM-Llama3-v2.5)的表现,实现高达30%的提升,并在具有挑战性的分布外医学问答任务上实现68%的提升。通过省去大量监督即可高效地将图像生成器的视觉专长转移过来,Lavender提供了一种可扩展的解决方案,以实现更准确的视觉语言系统。所有代码、训练数据和模型都将共享在https://astrazeneca.github.io/vlm/。