LLM2D
将可逆UNets与可逆注意力模块结合以实现内存高效扩散模型
Bringing together invertible UNets with invertible attention modules for memory-efficient diffusion models
作者: Karan Jain, Mohammad Nayeem Teli
发布日期: 4/16/2025
arXiv ID: oai:arXiv.org:2504.10883v1

摘要

arXiv:2504.10883v1 公告类型: cross 摘要: 近期,扩散模型已经在许多图像生成任务中取得了最先进的性能。然而,大多数模型需要大量的计算资源才能达到这一水平。在医学图像合成的应用中尤为明显,因为医学数据集如CT扫描、MRI、电子显微镜等具有三维特性。在这篇论文中,我们提出了一种新的架构,用于针对高维度医学数据集的单GPU内存高效训练扩散模型。所提出的模型是通过使用可逆的UNet架构和可逆的注意力模块构建的。这带来了以下两个贡献:1. 去噪扩散模型,从而使内存使用量与数据集的维度无关,2. 减少训练过程中的能耗。虽然这种新模型可以应用于多种图像生成任务,但我们在3D BraTS2020数据集上展示了其内存效率,与尖端技术相比,在训练过程中峰值内存消耗最多可减少15%,同时保持了图像质量。