LLM2D

摘要

arXiv:2502.01691v1 Announce Type: cross 摘要：使用大型语言模型（LLMs）从放射学报告中可靠地提取结构化数据仍然具有挑战性，尤其是在像希伯来语这样复杂、非英语的文本上。本研究介绍了一种基于代理的知情不确定性方法，以提高LLMs在医疗应用中的预测可信度。我们分析了2010年至2023年间来自三个医学中心的9,683份克罗恩病患者的放射学报告。其中512份报告被手动标注了六个消化道器官和十五项病理发现，而其余报告则使用HSMP-BERT自动标注。结构化数据提取使用了Llama 3.1（Llama 3-8b-instruct）与贝叶斯提示集（BayesPE）进行，BayesPE使用了六个语义等效提示来估计不确定性。基于代理的决策模型将多个提示输出整合成五个置信水平，以实现校准的不确定性，并与三个熵基模型进行了比较。性能使用准确率、F1分数、精确率、召回率和Cohen-Kappa系数在过滤掉高不确定性案例前后进行评估。基于代理的模型在所有指标上都优于基线，F1分数为0.3967，召回率为0.6437，Cohen-Kappa系数为0.3006。过滤掉高不确定性案例（大于或等于0.5）后，F1分数提高到0.4787，Kappa增加到0.4258。不确定性直方图清楚地显示了正确和错误预测之间的分离，基于代理的模型提供了最精准的不确定性估计。通过结合知情提示集合和基于代理的决策模型，这种方法增强了LLMs在从放射学报告中提取结构化数据时的性能和可靠性，为高风险医疗应用提供了更可解释和可信的解决方案。