摘要
本报告介绍了一种用于统一多模态表示学习的新方法——PixelBytes Embedding。我们的方法将不同的输入捕获在一个单一的、连贯的表示中,从而为多模态序列生成(特别是文本和像素图像)提供了新兴的属性。受Image Transformers、PixelCNN和Mamba-Bytes等最先进的序列模型的启发,PixelBytes旨在解决集成不同数据类型的挑战。我们探索了各种模型架构,包括循环神经网络(RNN)、状态空间模型(SSM)和基于注意力的模型,重点关注双向处理和我们创新的PxBy嵌入技术。我们对专门的PixelBytes Poké'mon数据集进行的实验表明,具有PxBy嵌入和卷积层的双向序列模型可以生成连贯的多模态序列。这项工作有助于推动集成式人工智能模型的发展,使其能够以统一的方式理解和生成多模态数据。