LLM2D

摘要

arXiv:2502.01691v1 Announce Type: cross 摘要：使用大型语言模型（LLMs）从放射报告中可靠地提取结构化数据仍然是一个挑战，尤其是在非英语文本如希伯来文的复杂文本中。本研究引入了一种基于代理的不确定性感知方法，以提高LLMs在医疗应用中的预测可信度。我们分析了来自2010年至2023年跨三个医疗机构的9,683份克罗恩病患者（共9,683例）的放射学报告。其中一部分512份报告被手动标注了六个胃肠道器官和15项病理发现，其余报告使用HSMP-BERT自动标注。结构化数据提取使用了Llama 3.1（Llama 3-8b-instruct）结合贝叶斯提示集合（BayesPE），该方法使用了六种语义等价提示来估计不确定性。基于代理的决策模型将多种提示输出整合为五个可信度级别以校准不确定性，并与三种基于熵的模型进行了对比。性能通过准确率、F1分数、精确率、召回率和Cohen's Kappa系数在过滤掉高不确定性情况下进行了评估。代理模型在所有指标上均优于基线，F1分数为0.3967，召回率为0.6437，Cohen's Kappa系数为0.3006。在过滤掉高不确定性情况（大于等于0.5）后，F1分数提高到0.4787，Kappa系数增加到0.4258。不确定性直方图显示了正确和错误预测之间的明显分离，代理模型提供了最准确的不确定性估计。通过结合不确定性感知提示集合以及基于代理的决策模型，这种方法增强了LLMs在从放射报告中提取结构化数据的性能和可靠性，为高风险医疗应用提供了更具可解释性和可信度的解决方案。