摘要
arXiv:2504.02351v1 类型: cross
摘要:基础模型在医学成像领域的部署已经取得了显著的成功。然而,由于所使用图像编码器的规模庞大,与下游任务相关的训练开销依然相当大,且推理复杂度也非常高。尽管已经得到了这些基础模型的轻量级变体,但它们的表现受限于其有限的模型容量和非最优的训练策略。为了在复杂性和性能之间实现更好的权衡,我们提出了一种新的框架,通过从多个大型医学基础模型(例如 MedSAM、RAD-DINO、MedCLIP)中进行知识蒸馏,这些模型各自擅长不同的视觉任务,旨在有效弥合医学图像分割任务中的性能差距。结合的模型在12项分割任务上展示了出色的泛化能力,而专业化模型需要为每个任务进行明确的训练。我们的方法在Dice系数方面相对于简单蒸馏实现了平均2%的性能提升。