LLM2D
跨EMR数据集弥合数据分布偏移的领域不变临床表示学习
Domain-invariant Clinical Representation Learning by Bridging Data Distribution Shift across EMR Datasets
作者: Zhongji Zhang, Yuhang Wang, Yinghao Zhu, Xinyu Ma, Yasha Wang, Junyi Gao, Liantao Ma, Wen Tang, Xiaoyun Zhang, Ling Wang
发布日期: 2/12/2025
arXiv ID: oai:arXiv.org:2310.07799v3

摘要

arXiv:2310.07799v3 类型:替换-交叉 摘要:新兴疾病由于可用信息有限,给症状识别和及时的临床干预带来了挑战。有效的预后模型能够帮助医师做出准确的诊断并设计个性化的治疗计划,以防止不良后果。然而,在疾病初期阶段,多项因素阻碍了模型的发展:数据收集有限、临床经验不足以及隐私和伦理问题限制了数据可用性并使准确标签的分配复杂化。此外,不同疾病或来源的电子医疗记录(EMR)数据在不同数据集上表现出显著的特征不对齐,严重影响了深度学习模型的有效性。我们提出了一种领域不变的表示学习方法,用于构建源数据集和目标数据集之间的过渡模型。通过约束在不同领域生成的特征分布的变化,我们捕捉到特定于下游任务的领域不变特征,开发了一个统一的领域不变编码器,能够在各种任务领域中实现更好的特征表示。在多个目标任务的实验结果表明,我们提出的模型超越了竞争基准方法,并且在有限数据下实现了更快的训练收敛。广泛实验验证了我们方法在提供更准确的新兴大流行病和其他疾病预测方面更有效。代码可从https://github.com/wang1yuhang/domain_invariant_network 公开获取。