摘要
arXiv:2503.23764v2 宣告类型: replace-cross
摘要:基于Transformer的架构通过有效地建模长距离依赖性,推进了医学图像分析的发展,但在3D设置中常常由于巨大的内存开销和对细粒度局部特征不足的捕捉而遇到困难。我们通过WaveFormer这一新颖的3D变压器解决这些限制:i)利用特征在频域的基本属性进行上下文表示;ii)受到人类视觉识别系统自上而下机制的启发,这是一种生物学上合理的设计。通过在多个尺度上使用离散小波变换(DWT),WaveFormer同时保留了全局上下文和高频率细节,用高效的波特定理总结和重构替代了耗重的上采样层。这显著减少了参数数量,这对于计算资源和训练时间受限的实际部署场景至关重要。此外,该模型具有通用性且易于适应多种应用。在BraTS2023、FLARE2021和KiTS2023上的评估显示,其性能与最先进的方法持平,同时提供显著更低的计算复杂度。