LLM2D

摘要

arXiv:2504.02351v1 类型: cross 摘要：基础模型在医学成像领域的部署已经取得了显著的成功。然而，由于所使用图像编码器的规模庞大，与下游任务相关的训练开销依然相当大，且推理复杂度也非常高。尽管已经得到了这些基础模型的轻量级变体，但它们的表现受限于其有限的模型容量和非最优的训练策略。为了在复杂性和性能之间实现更好的权衡，我们提出了一种新的框架，通过从多个大型医学基础模型（例如 MedSAM、RAD-DINO、MedCLIP）中进行知识蒸馏，这些模型各自擅长不同的视觉任务，旨在有效弥合医学图像分割任务中的性能差距。结合的模型在12项分割任务上展示了出色的泛化能力，而专业化模型需要为每个任务进行明确的训练。我们的方法在Dice系数方面相对于简单蒸馏实现了平均2%的性能提升。