摘要
大型多模态模型 (LMM) 在医疗视觉问答 (Med-VQA) 中取得了显著进展,在现有基准测试中取得了高精度。然而,它们在稳健评估下的可靠性值得怀疑。本研究表明,当进行简单的探测评估时,最先进的模型在医疗诊断问题上的表现比随机猜测更差。为了解决这一关键的评估问题,我们引入了医疗诊断探测评估 (ProbMed) 数据集,以通过探测评估和程序诊断来严格评估 LMM 在医学影像中的性能。特别地,探测评估的特点是将原始问题与具有幻觉属性的否定问题配对,而程序诊断需要对每个图像的各种诊断维度进行推理,包括模态识别、器官识别、临床发现、异常和位置定位。我们的评估表明,像 GPT-4o、GPT-4V 和 Gemini Pro 这样的顶级模型在专业诊断问题上的表现比随机猜测更差,表明它们在处理细粒度医疗查询方面存在重大局限性。此外,像 LLaVA-Med 这样的模型甚至在更一般的问题上也难以应对,而 CheXagent 的结果表明专业知识在同一器官的不同模态之间的可迁移性,表明专业领域知识对于提高性能仍然至关重要。本研究强调了迫切需要更稳健的评估,以确保 LMM 在医疗诊断等关键领域的可靠性,而目前的 LMM 距离应用于这些领域还很遥远。