LLM2D

摘要

arXiv:2504.10883v1 公告类型: cross 摘要: 近期，扩散模型已经在许多图像生成任务中取得了最先进的性能。然而，大多数模型需要大量的计算资源才能达到这一水平。在医学图像合成的应用中尤为明显，因为医学数据集如CT扫描、MRI、电子显微镜等具有三维特性。在这篇论文中，我们提出了一种新的架构，用于针对高维度医学数据集的单GPU内存高效训练扩散模型。所提出的模型是通过使用可逆的UNet架构和可逆的注意力模块构建的。这带来了以下两个贡献：1. 去噪扩散模型，从而使内存使用量与数据集的维度无关，2. 减少训练过程中的能耗。虽然这种新模型可以应用于多种图像生成任务，但我们在3D BraTS2020数据集上展示了其内存效率，与尖端技术相比，在训练过程中峰值内存消耗最多可减少15%，同时保持了图像质量。