LLM2D
时机至关重要:在多模态医疗成像中寻找最优融合点
Timing Is Everything: Finding the Optimal Fusion Points in Multimodal Medical Imaging
作者: Valerio Guarrasi, Klara Mogensen, Sara Tassinari, Sara Qvarlander, Paolo Soda
发布日期: 5/6/2025
arXiv ID: oai:arXiv.org:2505.02467v1

摘要

arXiv:2505.02467v1 多模态类型: cross 摘要: 多模态深度学习利用多种成像模态(如 MRI 序列)来增强医学影像诊断的准确性。一个关键挑战是如何确定最佳的多模态集成时机,特别是如何识别出应在网络的哪些层插入融合模块。当前的方法通常依赖手动调优或穷举搜索,这些方法在计算上可能是昂贵的,但无法保证能够寻找到最优配置。我们提出了一种逐步前向搜索算法,该算法逐步激活并评估不同网络层中的候选融合模块。在每一步中,算法从之前学习到的权重重新训练,并通过比较验证损失来确定表现最佳的配置。这个过程系统地减少了搜索空间,从而能够在无需穷尽测试所有可能模块放置的情况下,高效地识别出最佳的融合时机。该方法在两个不同的多模态 MRI 数据集上进行了验证,每个数据集都针对不同的分类任务。我们的算法在所有测试中都一致地识别出了优于单模态基准、晚期融合以及穷尽所有潜在融合放置的暴力组合的配置。这些架构展示了更出色的准确率、F分数和特异性,同时保持了竞争或改进的 AUC 值。此外,搜索的逐级性质显著减少了计算开销,使优化过程更为实际。通过系统地确定最佳融合时机,我们的方法推动了多模态深度学习在医学影像中的应用。该方法提供了一个高效且稳健的融合优化框架,为提高临床决策质量和在医学AI应用中开发更具适应性和可扩展性的架构铺平了道路。