摘要
本报告介绍了像素字节嵌入,这是一种用于统一多模态表示学习的新方法。我们的方法将不同的输入捕获在一个单一的、连贯的表示中,从而为多模态序列生成(尤其是文本和像素化图像)提供了新兴特性。受 Image Transformers、PixelCNN 和 Mamba-Bytes 等最先进的序列模型的启发,PixelBytes 旨在解决集成不同数据类型的挑战。我们探索了各种模型架构,包括循环神经网络 (RNN)、状态空间模型 (SSM) 和基于注意力的模型,重点关注双向处理和我们创新的 PxBy 嵌入技术。我们在专门的 PixelBytes Pokémon 数据集上进行的实验表明,具有 PxBy 嵌入和卷积层的双向序列模型可以生成连贯的多模态序列。这项工作有助于推进能够以统一的方式理解和生成多模态数据的集成人工智能模型的发展。