LLM2D

摘要

arXiv:2504.08040v2 宣告类型: replace-cross 摘要：临床文档分类对于将未结构化的医疗文本转换为标准的ICD-10诊断至关重要，但由于复杂的医疗语言、隐私限制和有限的标注数据集，它面临着挑战。大型语言模型（LLMs）在这一任务上提供了一种有希望的精确度和效率的改进方式。这项研究评估了八种LLMs的表现和一致性；其中包括四种推理型（Qwen QWQ，Deepseek Reasoner，GPT o3 Mini，Gemini 2.0 Flash Thinking）和四种非推理型（Llama 3.3，GPT 4o Mini，Gemini 2.0 Flash，Deepseek Chat）模型，在使用MIMIC-IV数据集分类临床出院摘要时的表现。通过cTAKES结构化临床叙述，模型在三个实验运行中进行了评估，最终预测通过多数投票确定。结果表明，推理型模型在精确度（71% vs 68%）和F1分数（67% vs 60%）上优于非推理型模型，Gemini 2.0 Flash Thinking在精确度（75%）和F1分数（76%）上表现最优。然而，非推理型模型在一致性方面表现更为稳定（91% vs 84%）。不同ICD-10代码的表现各异，推理型模型在复杂案例中表现突出，但在抽象类别方面却表现不佳。研究结果表明，在精确度和一致性之间存在权衡，这表明混合方法可能在临床编码中优化表现。未来的研究应探索多标签分类、领域特定微调和集成方法，以增强模型在实际应用中的可靠性。