摘要
arXiv:2504.08329v1 类型: 新
摘要: 电子健康记录(EHR)基础模型已经在各种医疗任务中展示了改进的性能,是一个值得探索的领域。尽管进展迅速,但存在一个基本的限制:处理超出词汇表的未知医疗代码。这一问题限制了EHR基础模型的通用性和使用不同词汇表训练的模型的集成。为了解决这个问题,我们基于观察性医疗结果伙伴关系(OMOP)通用数据模型(CDM),提出了MedRep,为EHR基础模型提供了集成的医学概念表示和基于OMOP词汇表的图本体的基本数据增强策略。对于概念表示学习,我们通过大型语言模型(LLM)提示为每个概念添加最小定义,并通过OMOP词汇表的图本体增强基于文本的表示。轨迹增强随机替换选择的概念为其他具有密切相关表示的类似概念,让模型在超词汇表的概念上进行练习。最后,我们证明了使用MedRep训练的EHR基础模型在外部数据集中更好地保持了预测性能。我们的代码实现已公开发布在https://github.com/kicarussays/MedRep。