LLM2D

摘要

arXiv:2502.01158v1 类型: cross 摘要: 多模态融合通过在不同模态间利用信息来学习更好的特征表示，其目的是改进基于融合的任务性能。然而，多模态数据集，尤其是在医疗环境中，通常比其单模态对应数据集小，这会阻碍多模态模型的表现。此外，模态数量的增加通常伴随多模态网络整体尺寸的增加，这在医疗应用场景中可能是不理想的。使用较小的单模态编码器可能会导致表现不佳，特别是在处理高维临床数据时。在本文中，我们提出了Modality-INformed 知识蒸馏（MIND）框架，这是一种基于知识蒸馏的多模态模型压缩方法，将不同尺寸的预训练深度神经网络集中的知识转移到一个较小的多模态学生模型中。教师模型由单模态网络组成，使得学生可以从多样性表示中学习。MIND 使用多头联合融合模型，而不是单头模型，这使得在单模态样本情况下可以使用单模态编码器，而不需要填充或屏蔽缺失的模态。结果，MIND 生成一个优化的多模态模型，既增强了多模态和单模态表示，也可以在训练过程中平衡多模态学习。我们在时间序列数据和胸部X光图像上评估了MIND在二分类和多标签临床预测任务上的表现。此外，我们还在三个非医疗领域多模态多类数据集上评估了MIND框架的一般适用性。实验结果显示，与最先进的基线相比，MIND在所有五个任务、各种融合方法和多模态架构中都增强了较小多模态网络的表现。