摘要
arXiv:2504.08040v1 交叉类型:公告
摘要:医学文档分类对于将非结构化医疗文本转换为标准化的ICD-10诊断至关重要,但由于复杂的医学语言、隐私限制和有限的标注数据集,它面临着挑战。大型语言模型(LLMs)为这一任务提供了提高准确性和效率的潜力。本研究评估了八种LLMs的性能和一致性;四种推理模型(Qwen QWQ、Deepseek Reasoner、GPT o3 Mini、Gemini 2.0 Flash Thinking)和四种非推理模型(Llama 3.3、GPT 4o Mini、Gemini 2.0 Flash、Deepseek Chat),在使用MIMIC-IV数据集进行临床出院总结分类时的表现。使用cTAKES来结构化临床叙述,模型在三次实验运行中进行了评估,其中多数投票决定了最终预测。结果显示,推理模型在准确率(71% vs 68%)和F1分数(67% vs 60%)方面优于非推理模型,其中Gemini 2.0 Flash Thinking在准确率(75%)和F1分数(76%)方面表现最佳。然而,非推理模型展示了更大的稳定性(91% vs 84%的一致性)。不同ICD-10代码的性能有所不同,推理模型在复杂案例中表现突出,但在抽象类别方面则遇到困难。研究结果表明,在准确性与一致性之间存在权衡,这表明一种混合方法可以优化临床编码。未来的研究应该探索多标签分类、领域特定微调和集成方法,以提高模型在实际应用中的可靠性。