LLM2D

摘要

arXiv:2502.14753v1 宣告类型: cross 摘要：医学图像以高分辨率获取，视野广阔，以捕捉对于临床决策至关重要的细微特征。因此，训练深度学习模型时会面临巨大的计算成本。在本工作中，我们解决如何在保持临床相关特征的同时降低医学图像规模，以提高下游计算效率的挑战。我们引入了MedVAE，这是一个由六个大规模2D和3D自动编码器组成的家族，可以将医学图像编码为缩小后的潜在表示，并能够从潜在表示重建回高分辨率图像。我们使用一种新颖的两阶段训练方法，在1,052,730个医学图像上训练MedVAE自动编码器。在整个医学图像数据集中获得的20个不同任务中，我们证明了（1）在训练下游模型时使用MedVAE潜在表示代替高分辨率图像可以带来效率收益（达到70倍的吞吐量提升），同时保持临床相关特征；（2）MedVAE可以高保真地从潜在表示重建回高分辨率图像。我们的工作展示了大规模、可泛化的自动编码器可以在医学领域帮助解决关键的效率挑战。我们的代码可在https://github.com/StanfordMIMI/MedVAE获取。