LLM2D

摘要

多模态大型语言模型在整合视觉和文本信息方面取得了重大进展，但它们通常难以有效地对齐这些模态。我们提出了一种新颖的图像标记器，通过将字节对编码 (BPE) 原理应用于视觉数据来弥合这一差距。与依赖于独立视觉编码器的传统方法不同，我们的方法直接将结构先验信息整合到图像标记中，这与仅文本大型语言模型中使用的成功标记策略相呼应。这种创新方法使 Transformer 模型能够更有效地跨模态学习和推理。通过理论分析和大量实验，我们证明了我们的 BPE 图像标记器显着增强了 MLLM 的多模态理解能力，即使在训练数据有限的情况下也是如此。我们的方法不仅提高了各种基准测试的性能，而且还展现出可观的可扩展性，有可能为更有效和更强大的多模态基础模型铺平道路。