摘要
arXiv:2504.07336v1 宣布类型: cross
摘要:基于UNet和Transformer为基础架构的医学图像分割已经取得了显著的成功。然而,现实世界的临床诊断往往需要整合领域知识,尤其是文本信息。多模态学习由于提供了视觉和文本模态的解决方案而被视作一种解决方案,但收集配对的视觉-语言数据集既昂贵又耗时,带来了显著的挑战。受大型语言模型(LLMs)在众多跨模态任务中表现出色能力的启发,我们提出了一种新颖的视觉-LLM联合框架来解决这些问题。具体而言,我们引入了冻结的LLM用于根据相应的医学图像进行零样本指令生成,模仿了放射学检查和报告生成的过程。为了更好地逼近实际诊断过程,我们从多模态放射学图像(如T1-w或T2-w MRI和CT)中生成更精确的文本指令。基于LLMs在语义理解和丰富知识方面的出色能力,该过程强调从不同模态中提取特殊特征并整合信息以实现最终的临床诊断。通过生成的文本指令,我们提出的联合分割框架可以在无需预先收集视觉-语言数据集的情况下处理多模态分割。为了评估我们提出的方法,我们进行了全面的实验并与有影响力的基础方法进行了比较,统计结果和可视化案例分析证明了我们新方法的优越性。