LLM2D

摘要

arXiv:2502.01158v1 多模态融合类型: 综合摘要: 多模态融合利用不同模态的信息来学习更好的特征表示，以提高融合任务中的性能。然而，多模态数据集，特别是在医疗环境中，通常比其单一模态的对应数据集规模要小，这可能会阻碍多模态模型的性能。此外，模态数量的增加通常伴随着整个多模态网络规模的增加，这可能在医疗应用场景中不太可取。使用较小的单一模态编码器可能会导致性能不佳，特别是在处理高维临床数据时。在本文中，我们提出了一种基于知识蒸馏的多模态模型压缩框架——Modality-INformed 知识蒸馏（MIND）框架，该框架将不同大小的预训练深度神经网络集成的知识转移到一个较小的多模态学生模型中。教师模型由单一模态网络组成，使得学生可以从多种表示中学习。MIND 使用多头联合融合模型，而不是单头模型，在单一模态样本的情况下，可以使用单一模态编码器，而不需要对缺失的模态进行插补或掩码。因此，MIND 生成了一个优化的多模态模型，增强了多模态和单一模态的表示。同时，它也可以在训练过程中用于平衡多模态学习。我们使用时间序列数据和胸部 X 光图像对 MIND 进行了二分类和多标签临床预测任务的评估。此外，我们还评估了 MIND 框架在三个非医疗多模态多分类数据集上的可推广性。实验结果表明，与最先进的基线方法相比，MIND 能够提高所有五个任务中较小多模态网络的性能，以及各种融合方法和多模态架构的性能。