LLM2D
利用大型语言模型提升机器学习可解释性和预测性能:一项针对精神健康患者急诊返回的案例研究
Leveraging Large Language Models to Enhance Machine Learning Interpretability and Predictive Performance: A Case Study on Emergency Department Returns for Mental Health Patients
作者: Abdulaziz Ahmed, Mohammad Saleem, Mohammed Alzeen, Badari Birur, Rachel E Fargason, Bradley G Burk, Hannah Rose Harkins, Ahmed Alhassan, Mohammed Ali Al-Garadi
发布日期: 2/14/2025
arXiv ID: oai:arXiv.org:2502.00025v2

摘要

arXiv:2502.00025v2 通告类型: replace-cross 摘要: 目的: 评估将大规模语言模型(LLMs)与传统机器学习方法结合使用是否能够同时提高精神卫生就诊风险模型的预测准确性和临床解释性。方法: 本回顾性队列研究分析了美国南部一所学术医疗中心在2018年1月至2022年12月期间27,904名独特精神卫生患者的42,464次急诊就诊记录。主要结果和指标: 评估了两个主要结果:(1)30天内急诊就诊预测的准确性,(2) 通过一种新颖的检索增强生成(RAG)框架来评估模型的解释性,该框架将SHAP(SHapley Additive exPlanations)值与上下文临床知识结合使用。结果: 所提出的支持LLM的机器学习解释性框架实现了99%的准确率,将复杂的模型预测转化为临床相关的解释。将LLM提取的特征集成到预测性能中,改进了XGBoost模型的曲线下面积(AUC)从0.73提高到0.76。基于LLM的10-shot学习特征提取方法在主要症状分类方面显著优于传统方法,准确率为0.882,F1分数为0.86(传统方法的准确率范围为0.59到0.63),并在多种社会经济地位(SDoH)类别中表现出准确率范围从0.65到0.93,突显了其在提取临床记录特征方面的稳健性能。结论与意义: 将LLMs与传统机器学习模型集成使用,在急诊就诊预测准确性上取得了适度但一致的改进,同时通过自动化的临床相关解释显著增强了模型解释性。这一方法提供了一种将复杂的预测分析转换为可操作的临床洞察的框架。