摘要
arXiv:2503.23281v1 Announce Type: cross
摘要:提取与患者主要症状(CC)、当前病情(HPI)以及既往病史、家族史和社会史(PFSH)相关的医学历史实体(MHEs),有助于将自由文本临床笔记结构化为标准化电子病历(EHRs),简化后续任务,如连续护理、医疗编码和质量指标。通过本地部署的微调临床大语言模型(cLLMs)可以在这一过程中提供帮助,同时确保敏感数据的安全。本研究评估了cLLMs在识别CC/HPI/PFSH相关的MHEs方面的性能,并探讨了笔记特征如何影响模型准确性。我们对MTSamples库中与61份门诊相关的1,449个MHEs进行了注释。为了识别这些实体,我们微调了七个最先进的cLLMs。此外,我们还评估了通过整合问题、检查、治疗和其他基本医疗实体(BMEs)来增强模型的性能。我们将这些模型在零样本设置下与GPT-4o进行了性能对比。为了更深入地了解影响模型准确性的文本特征,我们进行了错误分析,重点关注笔记长度、实体长度和分段。cLLMs展示了通过减少超过20%的时间来提取MHEs的潜力。然而,由于MHEs的多义性和频繁涉及非医学词汇,检测许多类型的MHEs仍然具有挑战性。微调过的GatorTron和GatorTronS,两种训练最广泛的cLLMs,显示出最高的性能。整合预识别的BME信息在某些实体的表现上有所提高。关于文本特征对模型性能的影响,我们发现较长的实体更难识别,笔记长度与更高的错误率不相关,并且良好组织的带有标题的分段对提取是有益的。