摘要
arXiv:2502.14553v1 Announce Type: 多模态
摘要:字节是数字世界的基石,因此它们是多模态基础模型的一个有前途的构建块。近年来,Byte 语言模型 (BLMs) 逐渐出现,以克服标记化的问题,但字节流的过长长度需要新的架构范式。因此,我们提出了多尺度 Byte 语言模型 (MBLM),这是一种模型无关的分层解码器堆栈,在单块 GPU 上以全模型精度训练时,允许使用 5M 字节的上下文窗口。我们在单模型精度下对 MBLM 的性能进行了彻底的考察,使用 Transformer 和 Mamba 块在单模态和多模态任务上进行了评估。我们的实验表明,混合架构在处理训练过程中极长的字节序列时非常有效,同时实现了接近线性的生成效率。据我们所知,这是首次对 BLMs 在视觉 Q&A 任务中的评估。尽管如此,MBLM 在纯下一个标记预测的情况下,能够匹配具有指定分类头的定制 CNN-LSTM 架构。我们展示了 MBLMs 在集成各种数据表示方面表现出强大的适应性,包括像素和图像文件流字节,强调了它们向全模态基础模型的潜在发展。源代码已在以下网址公开:https://github.com/ai4sd/multiscale-byte-lm