LLM2D

摘要

X 光影像在医疗诊断中至关重要，但如果没有临床背景，其有效性将受到限制。放射科医生经常发现胸部 X 光片不足以诊断潜在疾病，需要综合的临床特征和数据整合。我们提出了一种新颖的框架，通过使用临床表格数据的增强技术来增强临床背景，从而提高其在人工智能医疗诊断中的适用性和可靠性。我们引入了一种开创性的临床数据增强方法，该方法利用大型语言模型生成患者上下文合成数据。这种方法对于在医疗保健领域训练更强大的深度学习模型至关重要。它保留了真实患者数据的完整性，同时用上下文相关的合成特征丰富数据集，显著提高模型性能。我们的方法称为 DALL-M，使用三阶段特征生成过程：（i）临床上下文存储，（ii）专家查询生成，以及（iii）上下文感知特征增强。DALL-M 通过合成胸部 X 光影像和报告来生成新的、与临床相关的特征。应用于使用 MIMIC-IV 数据集中的九个特征的 799 个病例，它创建了一个包含 91 个特征的增强集。这是首个为患者 X 光报告生成上下文值的工作。具体来说，我们提供（i）大型语言模型生成现有临床特征的上下文合成值的能力，以及（ii）它们创建完全新的临床相关特征的能力。机器学习模型的实证验证显示出显著的性能提升。结合增强特征使 F1 分数提高了 16.5%，精确度和召回率提高了约 25%。DALL-M 解决了临床数据增强中的一个关键差距，为生成上下文丰富的 dataset 提供了一个强大的框架。