LLM2D

摘要

arXiv:2505.05573v2 宣告类型: 交叉替换摘要：从文本描述生成现实的医学图像在解决医疗AI中的数据稀缺挑战方面具有巨大潜力，同时可以保护患者隐私。本文在医学领域进行了全面的文本到图像合成研究，对比了两种不同的方法：（1）微调大型预训练潜在扩散模型和（2）训练小型领域特定模型。我们介绍了一种名为MSDM的新模型，这是一种基于Stable Diffusion优化的架构，集成了临床文本编码器、变分自编码器和跨注意力机制，以更好地使医学文本提示与生成的图像对齐。我们的研究对比了两种方法：微调大型预训练模型（FLUX、Kandinsky）与训练紧凑的领域特定模型（MSDM）。在结肠镜检查（MedVQA-GI）和放射学（ROCOv2）数据集上的评估表明，尽管大型模型在保真度方面表现更好，但我们优化的MSDM在计算成本更低的情况下提供了可比拟的质量。定量指标和医疗专家的定性评估揭示了每种方法的优点和局限性。