摘要
多模态大型语言模型在整合视觉和文本信息方面取得了重大进展,但它们往往难以有效地对齐这些模态。我们提出了一种新颖的图像标记器,它通过将字节对编码 (BPE) 原则应用于视觉数据来弥合这一差距。与依赖于单独视觉编码器的传统方法不同,我们的方法将结构先验信息直接整合到图像标记中,这反映了仅文本大型语言模型中使用的成功标记策略。这种创新方法使 Transformer 模型能够更有效地跨模态学习和推理。通过理论分析和大量实验,我们证明了我们的 BPE 图像标记器显着增强了 MLLM 的多模态理解能力,即使训练数据有限。我们的方法不仅提高了各种基准测试的性能,而且还显示出可观的可扩展性,有可能为更有效和强大的多模态基础模型铺平道路。