LLM2D
从像素到词元:量化视觉模态上的字节对编码
From Pixels to Tokens: Byte-Pair Encoding on Quantized Visual Modalities
作者: Wanpeng Zhang, Zilong Xie, Yicheng Feng, Yijiang Li, Xingrun Xing, Sipeng Zheng, Zongqing Lu
发布日期: 10/7/2024
arXiv ID: oai:arXiv.org:2410.02155v2

摘要

多模态大型语言模型在整合视觉和文本信息方面取得了重大进展,但它们通常难以有效地对齐这些模态。我们提出了一种新颖的图像标记器,通过将字节对编码 (BPE) 原理应用于视觉数据来弥合这一差距。与依赖于独立视觉编码器的传统方法不同,我们的方法直接将结构先验信息整合到图像标记中,这与仅文本大型语言模型中使用的成功标记策略相呼应。这种创新方法使 Transformer 模型能够更有效地跨模态学习和推理。通过理论分析和大量实验,我们证明了我们的 BPE 图像标记器显着增强了 MLLM 的多模态理解能力,即使在训练数据有限的情况下也是如此。我们的方法不仅提高了各种基准测试的性能,而且还展现出可观的可扩展性,有可能为更有效和更强大的多模态基础模型铺平道路。