LLM2D

摘要

arXiv:2503.23281v1 Announce Type: cross 摘要：提取与患者主要症状（CC）、当前病情（HPI）以及既往病史、家族史和社会史（PFSH）相关的医学历史实体（MHEs），有助于将自由文本临床笔记结构化为标准化电子病历（EHRs），简化后续任务，如连续护理、医疗编码和质量指标。通过本地部署的微调临床大语言模型（cLLMs）可以在这一过程中提供帮助，同时确保敏感数据的安全。本研究评估了cLLMs在识别CC/HPI/PFSH相关的MHEs方面的性能，并探讨了笔记特征如何影响模型准确性。我们对MTSamples库中与61份门诊相关的1,449个MHEs进行了注释。为了识别这些实体，我们微调了七个最先进的cLLMs。此外，我们还评估了通过整合问题、检查、治疗和其他基本医疗实体（BMEs）来增强模型的性能。我们将这些模型在零样本设置下与GPT-4o进行了性能对比。为了更深入地了解影响模型准确性的文本特征，我们进行了错误分析，重点关注笔记长度、实体长度和分段。cLLMs展示了通过减少超过20%的时间来提取MHEs的潜力。然而，由于MHEs的多义性和频繁涉及非医学词汇，检测许多类型的MHEs仍然具有挑战性。微调过的GatorTron和GatorTronS，两种训练最广泛的cLLMs，显示出最高的性能。整合预识别的BME信息在某些实体的表现上有所提高。关于文本特征对模型性能的影响，我们发现较长的实体更难识别，笔记长度与更高的错误率不相关，并且良好组织的带有标题的分段对提取是有益的。