LLM2D

摘要

arXiv:2502.06814v1 类型: cross 摘要: 我们介绍了一种简单的监督微调（SFT）方法Lavender，该方法通过利用先进的图像生成模型（如Stable Diffusion）来增强高级视觉语言模型（VLM）的性能。具体来说，Lavender在SFT期间将VLM变压器中的文本-视觉注意力与Stable Diffusion中使用的等效注意力对齐，而不是对独立的编码器进行适应。这种对齐丰富了模型的视觉理解，显著提升了分布内外任务的性能。Lavender只需要0.13百万个训练样本，相当于典型大规模SFT数据集的2.5%，在标准硬件（8个GPU）上一天内即可完成微调。它始终可以提高最先进的开源多模态LLM（例如Llama-3.2-11B，MiniCPM-Llama3-v2.5）的表现，实现高达30%的提升，并在具有挑战性的分布外医学问答任务上实现68%的提升。通过省去大量监督即可高效地将图像生成器的视觉专长转移过来，Lavender提供了一种可扩展的解决方案，以实现更准确的视觉语言系统。所有代码、训练数据和模型都将共享在https://astrazeneca.github.io/vlm/。