LLM2D
ZigMa:一种基于 DiT 风格之锯齿曼巴扩散模型
ZigMa: A DiT-style Zigzag Mamba Diffusion Model
作者: Vincent Tao Hu, Stefan Andreas Baumann, Ming Gui, Olga Grebenkova, Pingchuan Ma, Johannes Schusterbauer, Bj\"orn Ommer
发布日期: 11/26/2024
arXiv ID: oai:arXiv.org:2403.13802v3

摘要

扩散模型长期以来一直受到可扩展性和二次复杂度问题的困扰,尤其是在基于Transformer的结构中。本研究旨在利用名为Mamba的状态空间模型的长序列建模能力,将其应用扩展到视觉数据生成。首先,我们确定了大多数当前基于Mamba的视觉方法中的一个关键疏忽,即缺乏对Mamba扫描方案中空间连续性的考虑。其次,基于这一见解,我们引入了一种简单、即插即用、零参数的方法,称为Zigzag Mamba,它优于基于Mamba的基线,并且与基于Transformer的基线相比,展示了改进的速度和内存利用率。最后,我们将Zigzag Mamba与随机插值框架集成,以研究该模型在大分辨率视觉数据集(例如FacesHQ $1024\times 1024$和UCF101、MultiModal-CelebA-HQ以及MS COCO $256\times 256$)上的可扩展性。代码将发布在https://taohu.me/zigma/。