摘要
GPT-4V强大的多模态能力引发了人们对其在自动化放射学报告撰写中应用的兴趣,但缺乏全面的评估。本研究对GPT-4V在两个胸部X光报告数据集(MIMIC-CXR和IU X-Ray)上生成放射学报告的能力进行了系统评估。我们尝试通过不同的提示策略直接使用GPT-4V生成报告,发现其在词汇指标和临床效能指标上均表现极差。为了理解其低性能的原因,我们将任务分解为两个步骤:1)从图像预测医学病症标签的医学图像推理步骤;2)从(真实)病症生成报告的报告合成步骤。我们发现,GPT-4V在图像推理方面的性能在不同提示下始终较低。事实上,模型预测的标签分布保持不变,无论图像上是否存在哪些真实病症,这表明该模型并未有效地解读胸部X光片。即使在报告合成中给定真实病症,其生成的报告也比微调后的LLaMA-2更不准确,也更不自然。总而言之,我们的发现对在放射学工作流程中使用GPT-4V的可行性提出了质疑。