LLM2D

摘要

arXiv:2505.06152v1 类别: cross 摘要：医疗视觉语言模型（VLMs）已经在各个医学领域显示出作为临床助手的潜力。然而，能够提供专业和详细诊断分析的专门临床皮肤病VLM仍然发展不足，主要原因是当前皮肤病多模态数据集中缺乏特定的文本描述。为了解决这一问题，我们提出了MM-Skin，这是第一个大型皮肤病多模态数据集，涵盖了三种成像模态，包括临床、皮肤镜和病理成像，并收集了近10000对高质量的图像-文本对，这些对来源于专业的教科书。此外，我们还生成了超过27000个多样化的、遵循指令的视觉问答（VQA）样本，数量几乎是当前最大的皮肤病VQA数据集的9倍。利用公共数据集和MM-Skin，我们开发了SkinVL，这是一种针对皮肤疾病精准和细致解释的皮肤病特定VLM。在VQA、监督微调（SFT）和零样本分类任务的跨8个数据集的全面基准评估中，SkinVL在皮肤疾病的性能显著优于通用和医疗VLM模型。MM-Skin和SkinVL的引入为推动临床皮肤病VLM助手的发展做出了有意义的贡献。MM-Skin可在 https://github.com/ZwQ803/MM-Skin 获取。