LLM2D
理性LLMs能增强临床文档分类吗?
Can Reasoning LLMs Enhance Clinical Document Classification?
作者: Akram Mustafa, Usman Naseem, Mostafa Rahimi Azghadi
发布日期: 4/28/2025
arXiv ID: oai:arXiv.org:2504.08040v2

摘要

arXiv:2504.08040v2 宣告类型: replace-cross 摘要:临床文档分类对于将未结构化的医疗文本转换为标准的ICD-10诊断至关重要,但由于复杂的医疗语言、隐私限制和有限的标注数据集,它面临着挑战。大型语言模型(LLMs)在这一任务上提供了一种有希望的精确度和效率的改进方式。这项研究评估了八种LLMs的表现和一致性;其中包括四种推理型(Qwen QWQ,Deepseek Reasoner,GPT o3 Mini,Gemini 2.0 Flash Thinking)和四种非推理型(Llama 3.3,GPT 4o Mini,Gemini 2.0 Flash,Deepseek Chat)模型,在使用MIMIC-IV数据集分类临床出院摘要时的表现。通过cTAKES结构化临床叙述,模型在三个实验运行中进行了评估,最终预测通过多数投票确定。结果表明,推理型模型在精确度(71% vs 68%)和F1分数(67% vs 60%)上优于非推理型模型,Gemini 2.0 Flash Thinking在精确度(75%)和F1分数(76%)上表现最优。然而,非推理型模型在一致性方面表现更为稳定(91% vs 84%)。不同ICD-10代码的表现各异,推理型模型在复杂案例中表现突出,但在抽象类别方面却表现不佳。研究结果表明,在精确度和一致性之间存在权衡,这表明混合方法可能在临床编码中优化表现。未来的研究应探索多标签分类、领域特定微调和集成方法,以增强模型在实际应用中的可靠性。