摘要
arXiv:2404.14755v2 通知类型: 替换-交叉
摘要:随着视觉语言模型(VLMs)技术的不断进步,在皮肤病学领域,四类最常见的医学类别中,已经取得了显著的研究成果。然而,尽管这些进步,VLM 在诊断过程中仍由于皮肤病学条件的固有复杂性,导致难以向用户解释其可解释性问题。现有的工具为用户理解提供的支持相对有限。我们提出了一种名为SkinGEN的诊断到生成框架,该框架利用稳定扩散(SD)模型从VLM提供的诊断结果中生成参考示范,从而增强视觉可解释性。通过广泛的实验和低秩适应(LoRA)技术,我们确定了皮肤状况图像生成的最佳策略。我们进行了用户研究,涉及32名参与者,评估了系统的性能和可解释性。结果表明,SkinGEN 显著提高了用户对 VLM 预测的理解,并促进了对诊断过程的信任。本工作为皮肤病学及其他领域提供更多透明且用户中心的VLM应用铺平了道路。