LLM2D
利用大型语言模型提升机器学习可解释性和预测性能:针对精神健康患者急诊返回的案例研究
Leveraging Large Language Models to Enhance Machine Learning Interpretability and Predictive Performance: A Case Study on Emergency Department Returns for Mental Health Patients
作者: Abdulaziz Ahmed, Mohammad Saleem, Mohammed Alzeen, Badari Birur, Rachel E Fargason, Bradley G Burk, Hannah Rose Harkins, Ahmed Alhassan, Mohammed Ali Al-Garadi
发布日期: 2/17/2025
arXiv ID: oai:arXiv.org:2502.00025v3

摘要

arXiv:2502.00025v3 通知类型: replace-cross 摘要: 重要性: 精神健康状况的急诊返回给医疗保健带来了重大负担,24-27%的患者在30天内会再次返回急诊。传统的机器学习模型用于预测这些返回时,往往缺乏临床使用的可解释性。 目标: 评估将大型语言模型(LLMs)与机器学习结合是否能提高精神健康状况的急诊返回风险预测模型的预测准确性和临床可解释性。 方法: 本回顾性队列研究分析了2018年1月至2022年12月期间,在美国南部一所医学院校的27,904名独特精神健康患者中发生的42,464次急诊就诊。 主要结果和指标: 评估了两个主要结果:(1) 30天内急诊返回的预测准确性,(2) 使用一种新颖的LLM增强框架结合SHAP(SHapley Additive exPlanations)值和临床知识来评估模型的可解释性。 结果: 在主要症状分类方面,通过10-shot学习的LLaMA 3(8B)比传统模型表现更好(准确率:0.882,F1分数:0.86)。在社会决定因素(SDoH)分类中,基于LLM的模型实现了0.95的准确率和0.96的F1分数,其中酒精、烟草和药物滥用表现最好(F1:0.96-0.89),而运动和家庭环境的表现较差(F1:0.70-0.67)。基于LLM的可解释性框架在将模型预测转化为临床相关解释时达到了99%的准确率。从LLM提取的特征将XGBoost的AUC从0.74提高到0.76,AUC-PR从0.58提高到0.61。 结论与意义: 将LLM与机器学习模型结合使用,虽然增加了准确率的适度提升,但显著增强了通过自动化、临床相关解释的可解释性。这种方法为将预测分析转化为可操作的临床洞察提供了框架。