LLM2D
MM-Skin:通过源自教材的图文字数据集增强皮肤病视觉语言模型
MM-Skin: Enhancing Dermatology Vision-Language Model with an Image-Text Dataset Derived from Textbooks
作者: Wenqi Zeng, Yuqi Sun, Chenxi Ma, Weimin Tan, Bo Yan
发布日期: 5/12/2025
arXiv ID: oai:arXiv.org:2505.06152v1

摘要

arXiv:2505.06152v1 类别: cross 摘要:医疗视觉语言模型(VLMs)已经在各个医学领域显示出作为临床助手的潜力。然而,能够提供专业和详细诊断分析的专门临床皮肤病VLM仍然发展不足,主要原因是当前皮肤病多模态数据集中缺乏特定的文本描述。为了解决这一问题,我们提出了MM-Skin,这是第一个大型皮肤病多模态数据集,涵盖了三种成像模态,包括临床、皮肤镜和病理成像,并收集了近10000对高质量的图像-文本对,这些对来源于专业的教科书。此外,我们还生成了超过27000个多样化的、遵循指令的视觉问答(VQA)样本,数量几乎是当前最大的皮肤病VQA数据集的9倍。利用公共数据集和MM-Skin,我们开发了SkinVL,这是一种针对皮肤疾病精准和细致解释的皮肤病特定VLM。在VQA、监督微调(SFT)和零样本分类任务的跨8个数据集的全面基准评估中,SkinVL在皮肤疾病的性能显著优于通用和医疗VLM模型。MM-Skin和SkinVL的引入为推动临床皮肤病VLM助手的发展做出了有意义的贡献。MM-Skin可在 https://github.com/ZwQ803/MM-Skin 获取。