LLM2D
像素字节:捕捉多模态生成统一表示
PixelBytes: Catching Unified Representation for Multimodal Generation
作者: Fabien Furfaro
发布日期: 10/4/2024
arXiv ID: oai:arXiv.org:2410.01820v1

摘要

本报告介绍了 PixelBytes,一种用于统一多模态表示学习的新方法。受现有序列模型(如图像 Transformer、PixelCNN 和 Mamba-Bytes)的启发,我们的方法旨在以连贯的表示方式捕获不同的输入,探索不同数据类型(特别是文本、音频和像素化图像(精灵))的集成。我们对专门的 PixelBytes 精灵宝可梦数据集进行了实验。最初,我们研究了各种模型架构,包括循环神经网络 (RNN)、状态空间模型 (SSM) 和基于注意力的模型,重点是双向处理和我们的卷积 PxBy 嵌入技术。随后,我们根据数据缩减策略和自回归学习的有效性对模型进行了评估。我们专门在预测和自回归模式下检查了长短期记忆 (LSTM) 网络,用于我们的主要实验。我们的研究结果表明,在这种情况下,自回归模型优于预测模型。通过采用灵活的多模态建模方法,PixelBytes 为基础模型的持续发展做出了贡献,这些模型能够理解和生成多模态数据。完整的 PixelBytes 项目(包括代码、模型和数据集)可在网上获取。