LLM2D
DALL-M:基于大型语言模型的上下文感知临床数据增强
DALL-M: Context-Aware Clinical Data Augmentation with LLMs
作者: Chihcheng Hsieh, Catarina Moreira, Isabel Blanco Nobre, Sandra Costa Sousa, Chun Ouyang, Margot Brereton, Joaquim Jorge, Jacinto C. Nascimento
发布日期: 10/8/2024
arXiv ID: oai:arXiv.org:2407.08227v2

摘要

X 光影像在医疗诊断中至关重要,但如果没有临床背景,其有效性将受到限制。放射科医生经常发现胸部 X 光片不足以诊断潜在疾病,需要综合的临床特征和数据整合。我们提出了一种新颖的框架,通过使用临床表格数据的增强技术来增强临床背景,从而提高其在人工智能医疗诊断中的适用性和可靠性。我们引入了一种开创性的临床数据增强方法,该方法利用大型语言模型生成患者上下文合成数据。这种方法对于在医疗保健领域训练更强大的深度学习模型至关重要。它保留了真实患者数据的完整性,同时用上下文相关的合成特征丰富数据集,显著提高模型性能。我们的方法称为 DALL-M,使用三阶段特征生成过程:(i)临床上下文存储,(ii)专家查询生成,以及(iii)上下文感知特征增强。DALL-M 通过合成胸部 X 光影像和报告来生成新的、与临床相关的特征。应用于使用 MIMIC-IV 数据集中的九个特征的 799 个病例,它创建了一个包含 91 个特征的增强集。这是首个为患者 X 光报告生成上下文值的工作。具体来说,我们提供(i)大型语言模型生成现有临床特征的上下文合成值的能力,以及(ii)它们创建完全新的临床相关特征的能力。机器学习模型的实证验证显示出显著的性能提升。结合增强特征使 F1 分数提高了 16.5%,精确度和召回率提高了约 25%。DALL-M 解决了临床数据增强中的一个关键差距,为生成上下文丰富的 dataset 提供了一个强大的框架。