摘要
arXiv:2505.05573v2 宣告类型: 交叉替换
摘要:从文本描述生成现实的医学图像在解决医疗AI中的数据稀缺挑战方面具有巨大潜力,同时可以保护患者隐私。本文在医学领域进行了全面的文本到图像合成研究,对比了两种不同的方法:(1)微调大型预训练潜在扩散模型和(2)训练小型领域特定模型。我们介绍了一种名为MSDM的新模型,这是一种基于Stable Diffusion优化的架构,集成了临床文本编码器、变分自编码器和跨注意力机制,以更好地使医学文本提示与生成的图像对齐。我们的研究对比了两种方法:微调大型预训练模型(FLUX、Kandinsky)与训练紧凑的领域特定模型(MSDM)。在结肠镜检查(MedVQA-GI)和放射学(ROCOv2)数据集上的评估表明,尽管大型模型在保真度方面表现更好,但我们优化的MSDM在计算成本更低的情况下提供了可比拟的质量。定量指标和医疗专家的定性评估揭示了每种方法的优点和局限性。