摘要
多模态基础模型在医学影像解读方面展现出令人信服却又相互矛盾的性能。然而,这些模型整合和优先处理不同数据模态(包括图像和文本)的机制仍然知之甚少。本文使用包含1014个多模态医学病例的丰富数据集,评估了专有(GPT-4,Gemini Pro 1.0)和开源(Llama-3.2-90B,LLaVA-Med-v1.5)多模态基础模型在使用和不使用文本描述的情况下,其单模态和多模态医学影像解读能力。在所有模型中,图像预测主要依靠利用文本信息,准确率随着信息性文本数量的增加而单调递增。相比之下,人类在医学影像解读方面的表现并没有随着信息性文本的增加而提高。文本的利用是一把双刃剑;我们发现,即使是文本中轻微的错误诊断暗示也会降低基于图像的分类性能,在模型先前仅凭图像就能解答的病例中,性能会大幅下降。最后,我们对模型在长篇医学病例上的表现进行了医生评估,发现当文本信息量已经很高时,提供图像要么降低了模型的性能,要么没有影响。我们的结果表明,多模态人工智能模型可能对医学诊断推理有用,但其准确性很大程度上取决于其对文本的利用,利弊兼有。