LLM2D
多模态乐高:跨拓扑结构和模态的模型合并与微调在生物医学领域的应用
Multimodal Lego: Model Merging and Fine-Tuning Across Topologies and Modalities in Biomedicine
作者: Konstantin Hemker, Nikola Simidjievski, Mateja Jamnik
发布日期: 4/17/2025
arXiv ID: oai:arXiv.org:2405.19950v2

摘要

arXiv:2405.19950v2 多模态类型:替换交叉 摘要:在物理、化学或生物系统中学习整体计算表示需要能够处理同一模型中来自不同分布和模式的信息的能力。因此,对于超越视觉和语言的序列、图、时间序列或表格数据等模式,对多模态机器学习模型的需求显著增加。尽管有许多可用的多模态融合和对齐方法,但大多数方法需要端到端训练,其规模与模式数量呈 quadratically 增长,无法处理训练集中高模式不平衡的情况,或者过于拓扑特定,使得它们在许多生物医学学习任务中过于限制性。本文提出了一种通用的多模态融合框架 MM-Lego,可以在几乎没有或最小的微调的情况下将任何一组编码器转换为具有竞争力的多模态模型。我们通过引入任何单模态编码器的包装器来实现这一点,该包装器强制模态表示之间的形状一致性。它通过在频域中学习特征来协调这些表示,以使模型合并时信号干扰最小。我们展示了 MM-Lego 的以下几点:1)可以作为一种模型合并方法,在没有任何微调的情况下,达到与端到端融合模型相当的性能,2)可以在任何单模态编码器上操作,3)这是一种融合方法,在最小的微调下,在七个数据集中有五个数据集上超过了所有基准。