LLM2D
MedPix 2.0:一种全面的多模态生物医学数据集,适用于高级AI应用的检索增强生成和知识图谱
MedPix 2.0: A Comprehensive Multimodal Biomedical Data set for Advanced AI Applications with Retrieval Augmented Generation and Knowledge Graphs
作者: Irene Siragusa, Salvatore Contino, Massimo La Ciura, Rosario Alicata, Roberto Pirrone
发布日期: 4/10/2025
arXiv ID: oai:arXiv.org:2407.02994v3

摘要

arXiv:2407.02994v3 宣告类型: replace-cross 摘要:在医疗领域开发人工智能应用日益引起关注,但受到高质量数据集缺乏的阻碍,主要原因是隐私相关问题。此外,最近视觉语言模型(VLM)的增加导致了对包含临床报告和发现的多模态医疗数据集的需求,这些报告和发现应与相应的医学影像相关联。本文概述了构建 MedPix 2.0 数据集的整个工作流程。基于主要用于医生、护士和医疗保健学生继续医学教育的多模态数据集 MedPix,开发了一个半自动管道以提取视觉和文本数据,随后进行手动处理,删除了嘈杂的样本,从而创建了一个 MongoDB 数据库。除了数据集,我们还开发了一个图形用户界面,旨在高效地导航 MongoDB 实例并获取可用于训练和/或微调 VLM 的原始数据。为了强调这一点,在本工作中,我们首先回顾了基于 MedPix 2.0 训练的 DR-Minerva 模型,这是一种检索增强生成的 VLM 模型。DR-Minerva 预测输入图像的身体部位和扫描方式。我们还提出扩展 DR-Minerva,使用知识图谱和 Llama 3.1 Instruct 8B,并利用 MedPix 2.0。最终生成的架构可以作为一个端到端的查询系统,作为医学决策支持系统。MedPix 2.0 可在 GitHub 上获取 https://github.com/CHILab1/MedPix-2.0