摘要
arXiv:2411.04168v3 宣告类型: 替换-交叉
摘要:我们介绍了一种新颖的状态空间架构,有效地利用空间和频率信息,增强输入图像在图像生成任务中的局部特征诱导偏见。虽然状态空间网络,包括Mamba,一种革命性的递归神经网络进步,通常从左到右扫描输入序列,它们在设计有效的扫描策略方面面临困难,尤其是在处理图像数据时。我们的方法表明,将小波变换集成到Mamba中可以增强对视觉输入的局部结构意识,并通过将频谱分解为小波子带,分别表示低频和高频分量,从而更好地捕捉频谱的长期关系。这些基于小波的输出随后通过交叉注意力融合层与原始的Mamba输出无缝结合,结合空间和频率信息以优化状态空间模型的顺序意识,这对于图像生成的细节和整体质量至关重要。此外,我们引入了全局共享变换器以增强Mamba的性能,利用其极强的能力捕捉全局关系。通过在标准基准上的广泛实验,我们的方法在DiT和DIFFUSSM上表现出优越的结果,实现了更快的训练收敛速度并提供了高质量的输出。代码和预训练模型发布在https://github.com/VinAIResearch/DiMSUM.git。