LLM2D

摘要

机器学习和人工智能在电子健康记录（EHR）上的应用具有巨大的临床洞察力潜力。然而，这种方法面临着数据异质性、稀疏性、时间错位和标记结果有限等重大挑战。在此背景下，我们利用来自英国布里斯托尔、北萨默塞特郡和南格洛斯特郡约一百万名去标识个人的链接EHR数据集，来描述尿路感染（UTI）并开发专注于数据质量、公平性和透明度的预测模型。一个全面的数据预处理和整理流程将原始EHR数据转换为适合AI建模的结构化格式。鉴于地面实况UTI结果的可用性和偏差有限，我们引入了一个由临床专业知识指导的UTI风险评估框架，以估计各个患者时间线上的UTI风险。使用此框架，我们构建了成对的XGBoost模型来区分UTI风险类别，并使用可解释的人工智能技术来识别关键预测因子，同时确保可解释性。我们的研究结果揭示了各风险群体之间临床和人口统计学因素的差异，为UTI风险分层和进展提供了见解。这项研究证明了人工智能驱动的见解对UTI临床决策的附加值，同时优先考虑可解释性、透明度和公平性，强调了健全数据实践在促进健康结果方面的重要性。