LLM2D

摘要

arXiv:2505.02467v1 多模态类型: cross 摘要: 多模态深度学习利用多种成像模态（如 MRI 序列）来增强医学影像诊断的准确性。一个关键挑战是如何确定最佳的多模态集成时机，特别是如何识别出应在网络的哪些层插入融合模块。当前的方法通常依赖手动调优或穷举搜索，这些方法在计算上可能是昂贵的，但无法保证能够寻找到最优配置。我们提出了一种逐步前向搜索算法，该算法逐步激活并评估不同网络层中的候选融合模块。在每一步中，算法从之前学习到的权重重新训练，并通过比较验证损失来确定表现最佳的配置。这个过程系统地减少了搜索空间，从而能够在无需穷尽测试所有可能模块放置的情况下，高效地识别出最佳的融合时机。该方法在两个不同的多模态 MRI 数据集上进行了验证，每个数据集都针对不同的分类任务。我们的算法在所有测试中都一致地识别出了优于单模态基准、晚期融合以及穷尽所有潜在融合放置的暴力组合的配置。这些架构展示了更出色的准确率、F分数和特异性，同时保持了竞争或改进的 AUC 值。此外，搜索的逐级性质显著减少了计算开销，使优化过程更为实际。通过系统地确定最佳融合时机，我们的方法推动了多模态深度学习在医学影像中的应用。该方法提供了一个高效且稳健的融合优化框架，为提高临床决策质量和在医学AI应用中开发更具适应性和可扩展性的架构铺平了道路。