LLM2D

摘要

arXiv:2502.04397v1 宣布类型: cross 摘要：在患者电子健康记录（EHRs）上训练的基础模型需要将医疗数据 tokenize 成离散词汇项的序列。现有的分词器将 EHR 中的医疗代码视为孤立的文本项。然而，每个医疗代码由其文本描述、其在本体层次结构中的位置及其与其他代码的关系（如疾病共现和药物治疗关联）定义。医疗词汇表包含超过 600,000 个代码，这些代码对于临床推理至关重要。我们引入了 MedTok，这是一种利用代码的文本描述及其关系上下文的多模态医疗代码分词器。MedTok 使用语言模型编码器处理文本，并使用图编码器编码关系结构。然后，它将两种模态量化到一个统一的标记空间中，保留模态特定和跨模态的信息。我们将 MedTok 集成到五个 EHR 模型中，并在住院和门诊数据集上的操作性及临床任务中对其进行评估，包括结果预测、诊断分类、药物推荐和风险分层。用 MedTok 替换标准 EHR 分词器改善了所有 EHR 模型的 AUPRC，MIMIC-III 上提高了 4.10%，MIMIC-IV 上提高了 4.78%，EHRShot 上提高了 11.30%，在药物推荐方面的改进最大。除了 EHR 模型之外，我们还展示了将 MedTok 分词器与医疗问答系统结合使用。我们的结果显示 MedTok 作为医疗代码的统一分词器的潜力，可以提高医疗基础模型的分词质量。