LLM2D
溃疡GPT:利用大型语言模型和视觉模型进行糖尿病足溃疡图像转录的多模态方法
UlcerGPT: A Multimodal Approach Leveraging Large Language and Vision Models for Diabetic Foot Ulcer Image Transcription
作者: Reza Basiri, Ali Abedi, Chau Nguyen, Milos R. Popovic, Shehroz S. Khan
发布日期: 10/4/2024
arXiv ID: oai:arXiv.org:2410.01989v1

摘要

糖尿病足溃疡(DFUs)是导致住院和下肢截肢的主要原因,给患者和医疗保健系统带来了沉重的负担。DFUs 的早期检测和准确分类对于预防严重并发症至关重要,但由于缺乏专业服务的途径,许多患者在接受治疗方面存在延误。远程医疗已成为一种很有前途的解决方案,它可以改善医疗服务的可及性,减少面对面就诊的需要。人工智能和模式识别在远程医疗中的整合进一步增强了 DFU 管理,使图像能够自动检测、分类和监测。尽管人工智能驱动的 DFU 图像分析方法取得了进展,但大型语言模型在 DFU 图像转录中的应用尚未得到探索。为了解决这一差距,我们介绍了 UlcerGPT,这是一种新颖的多模态方法,它利用大型语言和视觉模型来进行 DFU 图像转录。该框架结合了先进的视觉和语言模型,例如大型语言和视觉助手以及聊天生成预训练变压器,通过联合检测、分类和定位感兴趣区域来转录 DFU 图像。通过对公共数据集进行详细的实验,并由专家临床医生进行评估,UlcerGPT 在 DFU 转录的准确性和效率方面展示了可喜的结果,为临床医生通过远程医疗提供及时护理提供了潜在的支持。