LLM2D

摘要

arXiv:2503.23764v1 宣告类型: cross 摘要: 基于变换器的架构通过有效地建模长程依赖性在医疗图像分析方面取得了进展，但在3D设置中经常因内存开销巨大和无法充分捕捉细微局部特征而遇到困难。我们通过引入一种新型3D变换器WaveFormer解决了这些限制：i) 利用特征在频域的基本性质进行上下文表示；ii) 受人类视觉识别系统自顶向下的机制启发，使其成为一种生物上合理的架构。通过在多个尺度上应用离散小波变换(DWT)，WaveFormer既能保持全局上下文也能保留高频细节，同时用高效的基于小波的总结和重构替换密集的上采样层。这显著减少了参数数量，这对于计算资源和训练时间有限的实际部署至关重要。此外，该模型具有通用性，容易适应各种应用。在BraTS2023、FLARE2021和KiTS2023上的评估显示，其性能与最先进的方法相当，同时计算复杂度大幅降低。