LLM2D
从息肉到医疗条件指导的图像合成:基于扩散模型的方法
Prompt to Polyp: Medical Text-Conditioned Image Synthesis with Diffusion Models
作者: Mikhail Chaichuk, Sushant Gautam, Steven Hicks, Elena Tutubalina
发布日期: 5/13/2025
arXiv ID: oai:arXiv.org:2505.05573v2

摘要

arXiv:2505.05573v2 宣告类型: 交叉替换 摘要:从文本描述生成现实的医学图像在解决医疗AI中的数据稀缺挑战方面具有巨大潜力,同时可以保护患者隐私。本文在医学领域进行了全面的文本到图像合成研究,对比了两种不同的方法:(1)微调大型预训练潜在扩散模型和(2)训练小型领域特定模型。我们介绍了一种名为MSDM的新模型,这是一种基于Stable Diffusion优化的架构,集成了临床文本编码器、变分自编码器和跨注意力机制,以更好地使医学文本提示与生成的图像对齐。我们的研究对比了两种方法:微调大型预训练模型(FLUX、Kandinsky)与训练紧凑的领域特定模型(MSDM)。在结肠镜检查(MedVQA-GI)和放射学(ROCOv2)数据集上的评估表明,尽管大型模型在保真度方面表现更好,但我们优化的MSDM在计算成本更低的情况下提供了可比拟的质量。定量指标和医疗专家的定性评估揭示了每种方法的优点和局限性。