LLM2D

摘要

本报告介绍了 PixelBytes，一种用于统一多模态表示学习的新方法。受现有序列模型（如图像 Transformer、PixelCNN 和 Mamba-Bytes）的启发，我们的方法旨在以连贯的表示方式捕获不同的输入，探索不同数据类型（特别是文本、音频和像素化图像（精灵））的集成。我们对专门的 PixelBytes 精灵宝可梦数据集进行了实验。最初，我们研究了各种模型架构，包括循环神经网络 (RNN)、状态空间模型 (SSM) 和基于注意力的模型，重点是双向处理和我们的卷积 PxBy 嵌入技术。随后，我们根据数据缩减策略和自回归学习的有效性对模型进行了评估。我们专门在预测和自回归模式下检查了长短期记忆 (LSTM) 网络，用于我们的主要实验。我们的研究结果表明，在这种情况下，自回归模型优于预测模型。通过采用灵活的多模态建模方法，PixelBytes 为基础模型的持续发展做出了贡献，这些模型能够理解和生成多模态数据。完整的 PixelBytes 项目（包括代码、模型和数据集）可在网上获取。