LLM2D

摘要

arXiv:2502.00025v1 类别: cross 摘要: 目的: 评估将大型语言模型（LLMs）与传统机器学习方法集成是否能同时提高急诊精神健康随访风险模型的预测准确性和临床解释性。方法: 本回顾性队列研究分析了2018年1月至2022年12月期间在美国南部一所医学院校内27,904名独特精神健康患者42,464次急诊访问的数据。主要结局和指标: 评估了两个主要结果: (1) 30天急诊返还预测准确性，(2) 通过一种新的检索增强生成（RAG）框架（该框架结合了SHAP值与上下文临床知识）来评估模型解释性。结果: 所提出的人工智能解释框架，利用LLM，实现了将复杂的模型预测转化为临床相关解释99%的准确率。将LLM提取的特征纳入模型提升了预测性能，将XGBoost模型的曲线下面积（AUC）从0.73提高到0.76。基于LLM的特征提取采用10-shot学习显著优于传统方法，分类主要症状（主要症状分类）的准确性达到0.882，F1分数为0.86（而传统方法的准确性范围为0.59到0.63），并展示了在多种社会人口健康（SDoH）类别中的准确性值从0.65到0.93，突显了其在从临床笔记中提取特征方面的稳健表现。结论和意义: 将LLM与传统机器学习模型结合，尽管效果温和但具有一致性地提高了急诊返回预测准确性，同时通过自动化、临床相关的解释显著增强了模型解释性。该方法提供了一个将复杂的预测分析转化为具操作性的临床洞察的框架。