LLM2D

摘要

arXiv:2404.14755v2 通知类型: 替换-交叉摘要：随着视觉语言模型(VLMs)技术的不断进步，在皮肤病学领域，四类最常见的医学类别中，已经取得了显著的研究成果。然而，尽管这些进步，VLM 在诊断过程中仍由于皮肤病学条件的固有复杂性，导致难以向用户解释其可解释性问题。现有的工具为用户理解提供的支持相对有限。我们提出了一种名为SkinGEN的诊断到生成框架，该框架利用稳定扩散(SD)模型从VLM提供的诊断结果中生成参考示范，从而增强视觉可解释性。通过广泛的实验和低秩适应(LoRA)技术，我们确定了皮肤状况图像生成的最佳策略。我们进行了用户研究，涉及32名参与者，评估了系统的性能和可解释性。结果表明，SkinGEN 显著提高了用户对 VLM 预测的理解，并促进了对诊断过程的信任。本工作为皮肤病学及其他领域提供更多透明且用户中心的VLM应用铺平了道路。