LLM2D

摘要

arXiv:2505.01091v1 Announce Type: cross 摘要：生成模型已经彻底改变了人工智能（AI），尤其是在多模态应用方面。然而，将这些模型适应医学领域带来了独特的挑战，因为医学数据的复杂性和对临床准确性的严格需求。在本文中，我们介绍了一个专门为多模态医学数据生成设计的框架。通过实现多视角胸部X光图像及其相应的临床报告的生成，该框架填补了通用视觉-语言模型与医疗保健领域的特殊需求之间的空白。利用MIMIC-CXR数据集，所提出的方法在生成高保真图像和语义一致的报告方面表现出色。我们的定量评估在FID和BLEU分数方面显示出显著的结果，展示了生成数据的质量。值得注意的是，与真实数据相比，我们的框架在下游疾病分类任务中取得了可比或更优的性能，突显了其作为医学研究和诊断工具的潜力。这项研究强调了针对特定领域的适应在提高生成模型在临床应用中的相关性和实用性方面的重要性，为合成多模态医学数据生成的未来进步铺平了道路。