LLM2D
基于表示学习推动电子健康记录数据多机构研究
Representation Learning to Advance Multi-institutional Studies with Electronic Health Record Data
作者: Doudou Zhou, Han Tong, Linshanshan Wang, Suqi Liu, Xin Xiong, Ziming Gan, Romain Griffier, Boris Hejblum, Yun-Chung Liu, Chuan Hong, Clara-Lea Bonzel, Tianrun Cai, Kevin Pan, Yuk-Lam Ho, Lauren Costa, Vidul A. Panickan, J. Michael Gaziano, Kenneth Mandl, Vianney Jouhet, Rodolphe Thiebaut, Zongqi Xia, Kelly Cho, Katherine Liao, Tianxi Cai
发布日期: 2/13/2025
arXiv ID: oai:arXiv.org:2502.08547v1

摘要

arXiv:2502.08547v1 本文类型: 新闻 摘要: EHRs 的采用扩展了在临床护理和研究中利用数据驱动算法的机会。有效开展多机构 EHR 研究的主要瓶颈在于系统间的数据异质性,存在许多既不存在或代表不同临床概念的代码。数据隐私的需求进一步限制了纳入多机构患者水平数据的可能性,这些数据是研究不同患者亚组相似性和差异性所必需的。为了解决这些挑战,我们开发了 GAME 算法。该算法已在 7 家机构和 2 种语言下进行测试和验证,结合了多个层次的数据整合:(1) 机构级整合,使用知识图谱建立代码与现有知识源之间的关系,提供标准代码及其相互关系的医疗背景;(2) 机构间整合,利用语言模型确定机构特定代码与已建立的标准代码之间的关系;以及 (3) 使用图注意力网络量化代码之间关系的强度。通过迁移学习和联邦学习联合训练嵌入,以保护数据隐私。在这项研究中,我们展示了 GAME 在多种条件下选择相关特征作为 AI 驱动算法输入的适用性,例如心力衰竭、类风湿性关节炎。然后,我们强调了在不共享患者级数据的情况下,利用 GAME 合并的多机构 EHR 数据在研究阿尔茨海默病患者和精神疾病患者自杀风险方面的应用,特别是在阿尔茨海默病的结局方面。