LLM2D

摘要

arXiv:2502.04397v2 宣布类型: replace-cross 摘要：在患者电子健康记录（EHR）上训练的基础模型需要将医疗数据 tokenize 成离散词汇项的序列。现有的 tokenizers 将 EHR 中的医疗代码视为孤立的文本 token。然而，每个医疗代码是由其文本描述、在本体层次结构中的位置，以及与其他代码的关系（如疾病共现和药物-治疗关联）所定义的。医疗词汇表包含超过 60 万个代码，这些代码中的关键信息对于临床推理至关重要。我们引入了 MedTok，这是一种多模态的医疗代码 tokenizer，它利用了代码的文本描述和关系上下文。MedTok 使用语言模型编码器处理文本，并使用图编码器编码关系结构。然后，它将两种模态量化到一个统一的 token 空间中，保留模态特定信息和跨模态信息。我们将 MedTok 集成到五个 EHR 模型中，并在入院和门诊数据集上对它进行了评估，包括结果预测、诊断分类、药物推荐和风险分层等临床任务。用 MedTok 替换标准的 EHR tokenizer 后，所有 EHR 模型的 AUPRC 都有所提升，在 MIMIC-III 上提高了 4.10%，在 MIMIC-IV 上提高了 4.78%，在 EHRShot 上提高了 11.30%，药物推荐方面的改善最为显著。除此之外，我们还展示了用 MedTok tokenizer 与医疗问答系统结合的使用情况。我们的结果显示，MedTok 作为统一的医疗代码 tokenizer 具有潜力，能够改进医疗基础模型的 tokenization。