摘要
多模态大型语言模型 (MLLMs) 在各种视觉和语言任务中展现出令人印象深刻的通用接口能力。然而,构建一个用于医学领域多任务学习的统一 MLLM 仍然是一个棘手的挑战。为了缓解多模态多任务优化中的“拉锯战”问题,最近的进展主要集中在改进 LLM 组件上,而忽略了连接不同模态的桥梁。本文介绍了 Uni-Med,这是一种新颖的医学通用基础模型,它包含一个通用视觉特征提取模块、一个连接器混合专家 (CMoE) 模块和一个 LLM。得益于提出的 CMoE,它利用了在连接器处具有混合投影专家的精心设计的路由器,Uni-Med 为“拉锯战”问题提供了有效的解决方案,并且可以执行六种不同的医学任务,包括问答、视觉问答、报告生成、指代表达理解、指代表达生成和图像分类。据我们所知,Uni-Med 是首次尝试在连接器处解决多任务干扰问题。广泛的消融实验验证了在任何配置下引入 CMoE 的有效性,平均性能提升高达 8%。我们还从梯度优化和参数统计的角度提供了对“拉锯战”问题的解释分析。与之前的最先进的医学 MLLM 相比,Uni-Med 在各种任务上取得了具有竞争力或更优的评估指标。代码、数据和模型将很快在 GitHub 上提供。