LLM2D
Uni-Med:一种基于连接器-MoE 的多任务学习统一医疗通用基础模型
Uni-Med: A Unified Medical Generalist Foundation Model For Multi-Task Learning Via Connector-MoE
作者: Xun Zhu, Ying Hu, Fanbin Mo, Miao Li, Ji Wu
发布日期: 9/27/2024
arXiv ID: oai:arXiv.org:2409.17508v1

摘要

多模态大型语言模型 (MLLMs) 在各种视觉和语言任务中展现出令人印象深刻的通用接口能力。然而,构建一个用于医学领域多任务学习的统一 MLLM 仍然是一个棘手的挑战。为了缓解多模态多任务优化中的“拉锯战”问题,最近的进展主要集中在改进 LLM 组件上,而忽略了连接不同模态的桥梁。本文介绍了 Uni-Med,这是一种新颖的医学通用基础模型,它包含一个通用视觉特征提取模块、一个连接器混合专家 (CMoE) 模块和一个 LLM。得益于提出的 CMoE,它利用了在连接器处具有混合投影专家的精心设计的路由器,Uni-Med 为“拉锯战”问题提供了有效的解决方案,并且可以执行六种不同的医学任务,包括问答、视觉问答、报告生成、指代表达理解、指代表达生成和图像分类。据我们所知,Uni-Med 是首次尝试在连接器处解决多任务干扰问题。广泛的消融实验验证了在任何配置下引入 CMoE 的有效性,平均性能提升高达 8%。我们还从梯度优化和参数统计的角度提供了对“拉锯战”问题的解释分析。与之前的最先进的医学 MLLM 相比,Uni-Med 在各种任务上取得了具有竞争力或更优的评估指标。代码、数据和模型将很快在 GitHub 上提供。