摘要
扩散模型长期以来一直受到可扩展性和二次复杂度问题的困扰,尤其是在基于Transformer的结构中。本研究旨在利用名为Mamba的状态空间模型的长序列建模能力,将其应用扩展到视觉数据生成。首先,我们确定了大多数当前基于Mamba的视觉方法中的一个关键疏忽,即缺乏对Mamba扫描方案中空间连续性的考虑。其次,基于这一见解,我们引入了一种简单、即插即用、零参数的方法,称为Zigzag Mamba,它优于基于Mamba的基线,并且与基于Transformer的基线相比,展示了改进的速度和内存利用率。最后,我们将Zigzag Mamba与随机插值框架集成,以研究该模型在大分辨率视觉数据集(例如FacesHQ $1024\times 1024$和UCF101、MultiModal-CelebA-HQ以及MS COCO $256\times 256$)上的可扩展性。代码将发布在https://taohu.me/zigma/。