摘要
医疗编码对于标准化临床数据和沟通至关重要,但通常耗时且易出错。传统的自然语言处理 (NLP) 方法由于标签空间庞大、文本输入冗长以及缺乏支持证据注释来证明代码选择的合理性,因此难以实现自动编码。生成式人工智能 (AI) 的最新进展为应对这些挑战提供了有希望的解决方案。在这项工作中,我们介绍了 MedCodER,一种用于自动医疗编码的生成式 AI 框架,它利用提取、检索和重新排序技术作为核心组件。MedCodER 在国际疾病分类 (ICD) 代码预测方面取得了 0.60 的微观 F1 分数,显著优于最先进的方法。此外,我们还提供了一个新的数据集,其中包含带有疾病诊断、ICD 代码和支持证据文本的医疗记录 (https://doi.org/10.5281/zenodo.13308316)。消融测试证实,MedCodER 的性能取决于其上述每个组件的集成,因为当这些组件单独评估时,性能会下降。