LLM2D

摘要

arXiv:2504.08329v1 类型: 新摘要: 电子健康记录（EHR）基础模型已经在各种医疗任务中展示了改进的性能，是一个值得探索的领域。尽管进展迅速，但存在一个基本的限制：处理超出词汇表的未知医疗代码。这一问题限制了EHR基础模型的通用性和使用不同词汇表训练的模型的集成。为了解决这个问题，我们基于观察性医疗结果伙伴关系（OMOP）通用数据模型（CDM），提出了MedRep，为EHR基础模型提供了集成的医学概念表示和基于OMOP词汇表的图本体的基本数据增强策略。对于概念表示学习，我们通过大型语言模型（LLM）提示为每个概念添加最小定义，并通过OMOP词汇表的图本体增强基于文本的表示。轨迹增强随机替换选择的概念为其他具有密切相关表示的类似概念，让模型在超词汇表的概念上进行练习。最后，我们证明了使用MedRep训练的EHR基础模型在外部数据集中更好地保持了预测性能。我们的代码实现已公开发布在https://github.com/kicarussays/MedRep。