摘要
大型多模态语言模型(MLLM),如 GPT-4V 的快速发展,带来了显著的进步。然而,由于医疗视觉文本数据的数量和质量有限,这些模型在医疗多模态能力方面仍然面临挑战,这源于数据隐私问题和高昂的标注成本。虽然开创性的方法利用 PubMed 的大规模去识别医疗图像文本对来解决这些限制,但由于数据本身的噪声,它们仍然存在不足。为了解决这个问题,我们对来自 PubMed 的医疗图像文本对进行了细化,并以“未盲”的方式使用 MLLM(GPT-4V)对数据进行去噪和重新格式化,最终创建了包含 130 万个医疗 VQA 样本的 PubMedVision 数据集。我们的验证表明:(1) PubMedVision 可以显著增强当前 MLLM 的医疗多模态能力,在 MMMU 健康与医学赛道等基准测试中表现出显著的改进;(2) 医疗专家的手动检查和实证结果验证了我们数据集与其他数据构建方法相比的更高数据质量。利用 PubMedVision,我们训练了一个 340 亿参数的医疗 MLLM HuatuoGPT-Vision,该模型在开源 MLLM 中表现出优异的医疗多模态场景性能。