LLM2D

摘要

arXiv:2504.09967v1 交叉公告类型：cross 摘要：医学通才基础模型的出现已经彻底改变了传统的针对特定任务的模型开发范式，通过在大规模医疗数据集上进行联合训练，旨在更好地处理多种任务。然而，最近的进展更倾向于简单的数据规模扩大或架构组件增强，而忽视了从数据为中心的角度重新审视多任务学习。关键的是，简单地聚合现有的数据资源会导致去中心化的图像任务对齐，无法培养全面的图像理解能力或与多维度图像解释的临床需求对齐。在本文中，我们介绍了图像为中心的多注释X射线数据集（IMAX），这是首次从数据构建层面增强医学多模态大型语言模型（MLLMs）的多任务学习能力的尝试。具体而言，IMAX具有的以下特征：1）高质量的数据整理。包含了适用于七种不同医疗任务的超过354,000个条目。2）以图像为中心的密集注释。每幅X射线图像平均关联4.10个任务和7.46个训练条目，确保每幅图像的多任务表示丰富性。与通用去中心化的多注释X射线数据集（DMAX）相比，IMAX在七个开源的最新医学MLLMs上的一致显示了从3.20%到21.05%的显著多任务平均性能提升。此外，我们研究了IMAX和DMAX训练过程中的统计模式差异，探索优化动态与多任务性能之间的潜在关联。最后，利用IMAX数据构建的核心理念，我们提出了基于优化的DMAX的训练策略，以便在实际场景中缓解获得高质量IMAX数据的困境。