LLM2D

摘要

arXiv:2504.08040v1 交叉类型：公告摘要：医学文档分类对于将非结构化医疗文本转换为标准化的ICD-10诊断至关重要，但由于复杂的医学语言、隐私限制和有限的标注数据集，它面临着挑战。大型语言模型（LLMs）为这一任务提供了提高准确性和效率的潜力。本研究评估了八种LLMs的性能和一致性；四种推理模型（Qwen QWQ、Deepseek Reasoner、GPT o3 Mini、Gemini 2.0 Flash Thinking）和四种非推理模型（Llama 3.3、GPT 4o Mini、Gemini 2.0 Flash、Deepseek Chat），在使用MIMIC-IV数据集进行临床出院总结分类时的表现。使用cTAKES来结构化临床叙述，模型在三次实验运行中进行了评估，其中多数投票决定了最终预测。结果显示，推理模型在准确率（71% vs 68%）和F1分数（67% vs 60%）方面优于非推理模型，其中Gemini 2.0 Flash Thinking在准确率（75%）和F1分数（76%）方面表现最佳。然而，非推理模型展示了更大的稳定性（91% vs 84%的一致性）。不同ICD-10代码的性能有所不同，推理模型在复杂案例中表现突出，但在抽象类别方面则遇到困难。研究结果表明，在准确性与一致性之间存在权衡，这表明一种混合方法可以优化临床编码。未来的研究应该探索多标签分类、领域特定微调和集成方法，以提高模型在实际应用中的可靠性。