LLM2D

摘要

arXiv:2502.14916v1 宣告类型：交叉摘要：医学领域自动编码国际疾病分类（ICD）的任务已经被很好地确立，并且受到了广泛关注。在英语中，自动编码ICD已经取得了成功，但在处理中文电子医疗记录（EMRs）时面临着挑战。首先，从中文EMRs中提取疾病代码相关的信息具有困难，主要是由于EMRs的简洁写作风格和特定内部结构。其次，以往的方法未能利用基于疾病的多轴知识，且缺乏与相应的临床证据的关联。本文介绍了一种名为MKE-Coder的新颖框架：针对中文EMRs的ICD编码中的多轴知识及证据验证。首先，我们识别候选诊断代码，并将其按照四个编码轴归类为知识类别。随后，我们从EMRs的全面内容中检索相应的临床证据，并通过评分模型筛选可信的证据。最后，为确保候选代码的有效性，我们提出了一种基于掩码语言建模策略的推理模块。该模块验证与候选代码相关的所有轴知识是否得到了证据支持，并据此提供相应的建议。为了评估该框架的性能，我们在从各种医院收集的大规模中文EMR数据集上进行了实验。实验结果表明，MKE-Coder在基于中文EMRs的自动ICD编码任务中表现出显著的优势。在实际模拟的编码场景中对我们的方法进行评估，证明了我们的方法显著地帮助编码员提高编码准确性和速度。