LLM2D

摘要

扩散模型长期以来一直受到可扩展性和二次复杂度问题的困扰，尤其是在基于Transformer的结构中。本研究旨在利用名为Mamba的状态空间模型的长序列建模能力，将其应用扩展到视觉数据生成。首先，我们确定了大多数当前基于Mamba的视觉方法中的一个关键疏忽，即缺乏对Mamba扫描方案中空间连续性的考虑。其次，基于这一见解，我们引入了一种简单、即插即用、零参数的方法，称为Zigzag Mamba，它优于基于Mamba的基线，并且与基于Transformer的基线相比，展示了改进的速度和内存利用率。最后，我们将Zigzag Mamba与随机插值框架集成，以研究该模型在大分辨率视觉数据集（例如FacesHQ $1024\times 1024$和UCF101、MultiModal-CelebA-HQ以及MS COCO $256\times 256$）上的可扩展性。代码将发布在https://taohu.me/zigma/。