摘要
本研究提出一种新颖的多智能体集成方法,该方法由大型语言模型 (LLM) 驱动,旨在解决机器学习 (ML) 中的一个关键挑战——数据标注,尤其是在大规模电子健康记录 (EHR) 数据集中的数据标注。此类数据集的手动标注需要专业领域知识,且费力、耗时、昂贵且容易出错。为了克服这一瓶颈,我们开发了一种集成 LLM 方法,并在两个实际任务中证明了其有效性:(1) 对 MIMIC-IV 中大规模未标注心电图 (ECG) 数据集进行标注;(2) 从 EHR 的临床记录中识别社会决定因素 (SDOH)。在权衡效益和成本后,我们选择了一组性能令人满意的多样化开源 LLM。我们将每个 LLM 的预测视为一票,并应用具有最小获胜阈值的多数投票机制进行集成。我们实现了一个用于 EHR 数据标注任务的集成 LLM 应用程序。通过使用集成 LLM 和自然语言处理,我们对 MIMIC-IV ECG 数据集的 623,566 份 ECG 报告进行了标注,估计准确率为 98.2%。我们将集成 LLM 方法应用于从 1,405 份 EHR 临床记录的病史部分识别 SDOH,也取得了具有竞争力的性能。我们的实验表明,集成 LLM 可以胜过单个 LLM(甚至包括最好的商业 LLM),并且该方法减少了幻觉错误。研究发现:(1) 集成 LLM 方法显著减少了对大规模 EHR 数据进行标注所需的时间和精力,以高精度和高质量实现了自动化流程;(2) 如其在 SDOH 识别中的应用所示,该方法可以很好地推广到其他文本数据标注任务;(3) 一组多样化 LLM 的集成可以超越或匹配最佳单个 LLM 的性能;(4) 集成方法大大减少了幻觉错误。这种方法为数据标注挑战提供了一种可扩展且高效的解决方案。