摘要
多模态大型语言模型(MLLM)的快速发展,例如 GPT-4V,已经取得了重大进展。然而,由于医疗视觉文本数据的数量和质量有限,这些模型在医疗多模态能力方面仍然面临挑战,其原因是数据隐私问题和高昂的标注成本。虽然先驱方法利用 PubMed 的大规模去识别医疗图像文本对来解决这些限制,但由于数据本身存在噪声,它们仍然存在不足。为了解决这个问题,我们对来自 PubMed 的医疗图像文本对进行了细化,并在 "非盲" 的情况下使用 MLLM(GPT-4V)对数据进行去噪和重新格式化,最终创建了包含 130 万个医疗 VQA 样本的 PubMedVision 数据集。我们的验证表明:(1)PubMedVision 可以显著增强当前 MLLM 的医疗多模态能力,在 MMMU 健康与医学领域等基准测试中表现出显著的改进;(2)医疗专家的人工检查和实证结果验证了我们数据集的数据质量优于其他数据构建方法。利用 PubMedVision,我们训练了一个 340 亿参数的医疗 MLLM HuatuoGPT-Vision,它在开放源代码 MLLM 中的医疗多模态场景中表现出优异的性能。