LLM2D

摘要

大型多模态模型 (LMM) 在医疗视觉问答 (Med-VQA) 中取得了显著进展，在现有基准测试中取得了高精度。然而，它们在稳健评估下的可靠性值得怀疑。本研究表明，当进行简单的探测评估时，最先进的模型在医疗诊断问题上的表现比随机猜测更差。为了解决这一关键的评估问题，我们引入了医疗诊断探测评估 (ProbMed) 数据集，以通过探测评估和程序诊断来严格评估 LMM 在医学影像中的性能。特别地，探测评估的特点是将原始问题与具有幻觉属性的否定问题配对，而程序诊断需要对每个图像的各种诊断维度进行推理，包括模态识别、器官识别、临床发现、异常和位置定位。我们的评估表明，像 GPT-4o、GPT-4V 和 Gemini Pro 这样的顶级模型在专业诊断问题上的表现比随机猜测更差，表明它们在处理细粒度医疗查询方面存在重大局限性。此外，像 LLaVA-Med 这样的模型甚至在更一般的问题上也难以应对，而 CheXagent 的结果表明专业知识在同一器官的不同模态之间的可迁移性，表明专业领域知识对于提高性能仍然至关重要。本研究强调了迫切需要更稳健的评估，以确保 LMM 在医疗诊断等关键领域的可靠性，而目前的 LMM 距离应用于这些领域还很遥远。