LLM2D
多模态医疗代码分词器
Multimodal Medical Code Tokenizer
作者: Xiaorui Su, Shvat Messica, Yepeng Huang, Ruth Johnson, Lukas Fesser, Shanghua Gao, Faryad Sahneh, Marinka Zitnik
发布日期: 2/14/2025
arXiv ID: oai:arXiv.org:2502.04397v2

摘要

arXiv:2502.04397v2 宣布类型: replace-cross 摘要:在患者电子健康记录(EHR)上训练的基础模型需要将医疗数据 tokenize 成离散词汇项的序列。现有的 tokenizers 将 EHR 中的医疗代码视为孤立的文本 token。然而,每个医疗代码是由其文本描述、在本体层次结构中的位置,以及与其他代码的关系(如疾病共现和药物-治疗关联)所定义的。医疗词汇表包含超过 60 万个代码,这些代码中的关键信息对于临床推理至关重要。我们引入了 MedTok,这是一种多模态的医疗代码 tokenizer,它利用了代码的文本描述和关系上下文。MedTok 使用语言模型编码器处理文本,并使用图编码器编码关系结构。然后,它将两种模态量化到一个统一的 token 空间中,保留模态特定信息和跨模态信息。我们将 MedTok 集成到五个 EHR 模型中,并在入院和门诊数据集上对它进行了评估,包括结果预测、诊断分类、药物推荐和风险分层等临床任务。用 MedTok 替换标准的 EHR tokenizer 后,所有 EHR 模型的 AUPRC 都有所提升,在 MIMIC-III 上提高了 4.10%,在 MIMIC-IV 上提高了 4.78%,在 EHRShot 上提高了 11.30%,药物推荐方面的改善最为显著。除此之外,我们还展示了用 MedTok tokenizer 与医疗问答系统结合的使用情况。我们的结果显示,MedTok 作为统一的医疗代码 tokenizer 具有潜力,能够改进医疗基础模型的 tokenization。