摘要
arXiv:2412.12661v2 通告类型: 替换
摘要: 近期在混合模态生成方面的突破为开发能够分析生物医学影像、回答关于它们的复杂问题并生成多模态患者报告的统一生物医学助手打开了新的途径。然而,现有的数据集面临挑战,如数据量小、生物医学任务和领域覆盖面有限以及依赖单一来源。为解决这些不足,我们提出了 MedMax,这是一个大规模的混合模态生物医学指令调整数据集,用于混合模态基础模型。MedMax 包含 147 万实例,涵盖了从交错的图像-文本生成到生物医学图像配字生成、视觉聊天以及报告理解等一系列任务。这些任务横跨多样的生物医学领域,包括放射学和显微病理学,并基于医学论文和 YouTube 视频。随后,我们使用 MedMax 数据集对混合模态基础模型进行微调,取得了显著的性能提升:在 12 项下游生物医学视觉问答任务中,相对于 Chameleon 模型的提升为 26%,相对于 GPT-4o 的提升为 18.3%。最后,我们引入了一个统一的评估套件,以指导混合模态生物医学 AI 助手的发展。数据、模型和代码可在 https://mint-medmax.github.io/ 获取。