LLM2D

摘要

arXiv:2505.09329v1 Announce Type: cross 摘要：扩大模型和数据的规模在广泛的任务上展示了令人印象深刻的性能提升。尽管对通用任务的缩放行为进行了广泛研究，但医学影像与自然数据之间存在显著差异。由于在医学领域缺乏对缩放行为的广泛理解，开发大规模医学视觉基础模型的关键因素仍然不清楚。在本文中，我们通过自监督学习探索了在开发可扩展的医学视觉基础模型时跨模型规模、训练算法、数据规模和成像模态的缩放行为。为了支持可扩展的预训练，我们引入了BioVFM-21M，这是一个大规模的生物医学图像数据集，涵盖了多种生物医学图像模态和解剖结构。我们观察到，扩大规模确实有益，但不同任务之间有所差异。进一步的分析揭示了几种与缩放益处相关的因素。最后，我们提出了一种名为BioVFM的大型医学视觉基础模型，该模型在2100万生物医学图像上进行预训练，并在12项医学基准测试中优于之前的最先进的基础模型。我们的结果显示，虽然扩大规模有助于提升性能，但任务特性、数据多样性、预训练方法和计算效率仍然是开发可扩展的医学基础模型的关键考虑因素。