摘要
arXiv:2505.06152v1 类别: cross
摘要:医疗视觉语言模型(VLMs)已经在各个医学领域显示出作为临床助手的潜力。然而,能够提供专业和详细诊断分析的专门临床皮肤病VLM仍然发展不足,主要原因是当前皮肤病多模态数据集中缺乏特定的文本描述。为了解决这一问题,我们提出了MM-Skin,这是第一个大型皮肤病多模态数据集,涵盖了三种成像模态,包括临床、皮肤镜和病理成像,并收集了近10000对高质量的图像-文本对,这些对来源于专业的教科书。此外,我们还生成了超过27000个多样化的、遵循指令的视觉问答(VQA)样本,数量几乎是当前最大的皮肤病VQA数据集的9倍。利用公共数据集和MM-Skin,我们开发了SkinVL,这是一种针对皮肤疾病精准和细致解释的皮肤病特定VLM。在VQA、监督微调(SFT)和零样本分类任务的跨8个数据集的全面基准评估中,SkinVL在皮肤疾病的性能显著优于通用和医疗VLM模型。MM-Skin和SkinVL的引入为推动临床皮肤病VLM助手的发展做出了有意义的贡献。MM-Skin可在 https://github.com/ZwQ803/MM-Skin 获取。