LLM2D

摘要

arXiv:2504.04336v1 交叉类型公告摘要：在这项回顾性研究中，构建了一个包含两部分的数据集。第一部分包括由GPT-4使用指定提示生成的1,656份合成胸部放射学报告，其中828份是无错误的合成报告，828份包含错误。第二部分包括614份报告：2011年至2016年间，来自MIMIC-CXR数据库的307份无错误报告和基于这些MIMIC-CXR报告和指定提示生成的307份包含错误的相应合成报告。所有错误都被分类为四种类型：否定、左右、时间间隔变化和转录错误。然后，使用零样本提示、少样本提示或微调策略对包括Llama-3、GPT-4和BiomedBERT在内的几种模型进行了改进。最后，使用我们的构建数据集上的F1分数、95%置信区间（CI）和配对样本t检验对这些模型的性能进行了评估，并进一步由放射科医生评估了预测结果。使用零样本提示，微调后的Llama-3-70B-Instruct模型在以下F1分数上表现最佳：0.769用于否定错误，0.772用于左右错误，0.750用于时间间隔变化错误，0.828用于转录错误，整体F1分数为0.780。在实际评估阶段，两名放射科医生审查了模型输出的200份随机选择的报告。在这200份报告中，99份被两位放射科医生确认包含模型检测的错误，163份被至少一位放射科医生确认包含模型检测的错误。生成型大语言模型，在合成和MIMIC-CXR放射学报告上的微调，大大提高了放射学报告中的错误检测能力。