LLM2D

摘要

本研究提出一种新颖的多智能体集成方法，该方法由大型语言模型 (LLM) 驱动，旨在解决机器学习 (ML) 中的一个关键挑战——数据标注，尤其是在大规模电子健康记录 (EHR) 数据集中的数据标注。此类数据集的手动标注需要专业领域知识，且费力、耗时、昂贵且容易出错。为了克服这一瓶颈，我们开发了一种集成 LLM 方法，并在两个实际任务中证明了其有效性：(1) 对 MIMIC-IV 中大规模未标注心电图 (ECG) 数据集进行标注；(2) 从 EHR 的临床记录中识别社会决定因素 (SDOH)。在权衡效益和成本后，我们选择了一组性能令人满意的多样化开源 LLM。我们将每个 LLM 的预测视为一票，并应用具有最小获胜阈值的多数投票机制进行集成。我们实现了一个用于 EHR 数据标注任务的集成 LLM 应用程序。通过使用集成 LLM 和自然语言处理，我们对 MIMIC-IV ECG 数据集的 623,566 份 ECG 报告进行了标注，估计准确率为 98.2%。我们将集成 LLM 方法应用于从 1,405 份 EHR 临床记录的病史部分识别 SDOH，也取得了具有竞争力的性能。我们的实验表明，集成 LLM 可以胜过单个 LLM（甚至包括最好的商业 LLM），并且该方法减少了幻觉错误。研究发现：(1) 集成 LLM 方法显著减少了对大规模 EHR 数据进行标注所需的时间和精力，以高精度和高质量实现了自动化流程；(2) 如其在 SDOH 识别中的应用所示，该方法可以很好地推广到其他文本数据标注任务；(3) 一组多样化 LLM 的集成可以超越或匹配最佳单个 LLM 的性能；(4) 集成方法大大减少了幻觉错误。这种方法为数据标注挑战提供了一种可扩展且高效的解决方案。