摘要
arXiv:2502.06788v1 类型: cross
摘要: 无需编码器的视觉-语言模型(VLMs)正在迅速缩小与基于编码器的同类模型之间的性能差距,突显了具有结构简洁性和高效部署的一体化多模态系统的潜在价值。我们系统性地阐明了使用预训练视觉编码器、离散分词器以及从头开始最小化的视觉层的VLMs之间的性能差距,深入挖掘了无需编码器的VLMs未被充分研究的特点。我们为无需编码器的VLMs开发了有效的策略,以与主流的基于编码器的模型竞争。经过深入研究后,我们推出了EVEv2.0,一种新的改进型的无需编码器的VLMs系列。我们展示了:(i) 适当分解并在统一模型中层级关联视觉和语言能够减少模态之间的干扰。(ii) 一个好的训练策略使无需编码器的VLMs的有效优化成为可能。通过广泛评估,我们的EVEv2.0代表了在多种模态下开发仅解码器架构的彻底研究,展示了卓越的数据效率和强大的视觉推理能力。代码可在以下地址公开获取:https://github.com/baaivision/EVE。