LLM2D

摘要

arXiv:2502.14553v1 Announce Type: 多模态摘要：字节是数字世界的基石，因此它们是多模态基础模型的一个有前途的构建块。近年来，Byte 语言模型 (BLMs) 逐渐出现，以克服标记化的问题，但字节流的过长长度需要新的架构范式。因此，我们提出了多尺度 Byte 语言模型 (MBLM)，这是一种模型无关的分层解码器堆栈，在单块 GPU 上以全模型精度训练时，允许使用 5M 字节的上下文窗口。我们在单模型精度下对 MBLM 的性能进行了彻底的考察，使用 Transformer 和 Mamba 块在单模态和多模态任务上进行了评估。我们的实验表明，混合架构在处理训练过程中极长的字节序列时非常有效，同时实现了接近线性的生成效率。据我们所知，这是首次对 BLMs 在视觉 Q&A 任务中的评估。尽管如此，MBLM 在纯下一个标记预测的情况下，能够匹配具有指定分类头的定制 CNN-LSTM 架构。我们展示了 MBLMs 在集成各种数据表示方面表现出强大的适应性，包括像素和图像文件流字节，强调了它们向全模态基础模型的潜在发展。源代码已在以下网址公开：https://github.com/ai4sd/multiscale-byte-lm