LLM2D

摘要

arXiv:2505.05573v1 Announce Type: cross 摘要：从文本描述生成现实医疗图像具有解决医疗AI领域数据稀缺挑战的巨大潜力，同时保护患者隐私。本文在医疗领域对文本到图像合成进行了全面研究，比较了两种不同的方法：（1）针对大型预训练潜藏扩散模型进行微调，以及（2）训练小型、领域特定模型。我们提出了一种名为MSDM的新模型，这是一款基于Stable Diffusion优化的架构，它融合了临床文本编码器、变分自编码器和交叉注意机制，以更好地使医疗文本提示与生成的图像对齐。我们的研究比较了两种方法：针对大型预训练模型进行微调（FLUX，Kandinsky）与训练紧凑的领域特定模型（MSDM）。跨结肠镜检查（MedVQA-GI）和放射学（ROCOv2）数据集的评估表明，虽然大型模型在保真度方面表现出色，但我们的优化MSDM在较低计算成本下提供了相当的质量。定量指标和医疗专家进行的定性评估揭示了每种方法的优点和局限性。