LLM2D

摘要

arXiv:2407.02994v3 宣告类型: replace-cross 摘要：在医疗领域开发人工智能应用日益引起关注，但受到高质量数据集缺乏的阻碍，主要原因是隐私相关问题。此外，最近视觉语言模型（VLM）的增加导致了对包含临床报告和发现的多模态医疗数据集的需求，这些报告和发现应与相应的医学影像相关联。本文概述了构建 MedPix 2.0 数据集的整个工作流程。基于主要用于医生、护士和医疗保健学生继续医学教育的多模态数据集 MedPix，开发了一个半自动管道以提取视觉和文本数据，随后进行手动处理，删除了嘈杂的样本，从而创建了一个 MongoDB 数据库。除了数据集，我们还开发了一个图形用户界面，旨在高效地导航 MongoDB 实例并获取可用于训练和/或微调 VLM 的原始数据。为了强调这一点，在本工作中，我们首先回顾了基于 MedPix 2.0 训练的 DR-Minerva 模型，这是一种检索增强生成的 VLM 模型。DR-Minerva 预测输入图像的身体部位和扫描方式。我们还提出扩展 DR-Minerva，使用知识图谱和 Llama 3.1 Instruct 8B，并利用 MedPix 2.0。最终生成的架构可以作为一个端到端的查询系统，作为医学决策支持系统。MedPix 2.0 可在 GitHub 上获取 https://github.com/CHILab1/MedPix-2.0