LLM2D
生成式大型语言模型,用于检测放射科报告中的错误
Generative Large Language Models Trained for Detecting Errors in Radiology Reports
作者: Cong Sun, Kurt Teichman, Yiliang Zhou, Brian Critelli, David Nauheim, Graham Keir, Xindi Wang, Judy Zhong, Adam E Flanders, George Shih, Yifan Peng
发布日期: 4/8/2025
arXiv ID: oai:arXiv.org:2504.04336v1

摘要

arXiv:2504.04336v1 交叉类型公告 摘要:在这项回顾性研究中,构建了一个包含两部分的数据集。第一部分包括由GPT-4使用指定提示生成的1,656份合成胸部放射学报告,其中828份是无错误的合成报告,828份包含错误。第二部分包括614份报告:2011年至2016年间,来自MIMIC-CXR数据库的307份无错误报告和基于这些MIMIC-CXR报告和指定提示生成的307份包含错误的相应合成报告。所有错误都被分类为四种类型:否定、左右、时间间隔变化和转录错误。然后,使用零样本提示、少样本提示或微调策略对包括Llama-3、GPT-4和BiomedBERT在内的几种模型进行了改进。最后,使用我们的构建数据集上的F1分数、95%置信区间(CI)和配对样本t检验对这些模型的性能进行了评估,并进一步由放射科医生评估了预测结果。使用零样本提示,微调后的Llama-3-70B-Instruct模型在以下F1分数上表现最佳:0.769用于否定错误,0.772用于左右错误,0.750用于时间间隔变化错误,0.828用于转录错误,整体F1分数为0.780。在实际评估阶段,两名放射科医生审查了模型输出的200份随机选择的报告。在这200份报告中,99份被两位放射科医生确认包含模型检测的错误,163份被至少一位放射科医生确认包含模型检测的错误。生成型大语言模型,在合成和MIMIC-CXR放射学报告上的微调,大大提高了放射学报告中的错误检测能力。