LLM2D

摘要

arXiv:2502.08547v1 本文类型: 新闻摘要: EHRs 的采用扩展了在临床护理和研究中利用数据驱动算法的机会。有效开展多机构 EHR 研究的主要瓶颈在于系统间的数据异质性，存在许多既不存在或代表不同临床概念的代码。数据隐私的需求进一步限制了纳入多机构患者水平数据的可能性，这些数据是研究不同患者亚组相似性和差异性所必需的。为了解决这些挑战，我们开发了 GAME 算法。该算法已在 7 家机构和 2 种语言下进行测试和验证，结合了多个层次的数据整合：(1) 机构级整合，使用知识图谱建立代码与现有知识源之间的关系，提供标准代码及其相互关系的医疗背景；(2) 机构间整合，利用语言模型确定机构特定代码与已建立的标准代码之间的关系；以及 (3) 使用图注意力网络量化代码之间关系的强度。通过迁移学习和联邦学习联合训练嵌入，以保护数据隐私。在这项研究中，我们展示了 GAME 在多种条件下选择相关特征作为 AI 驱动算法输入的适用性，例如心力衰竭、类风湿性关节炎。然后，我们强调了在不共享患者级数据的情况下，利用 GAME 合并的多机构 EHR 数据在研究阿尔茨海默病患者和精神疾病患者自杀风险方面的应用，特别是在阿尔茨海默病的结局方面。