摘要
arXiv:2502.00196v1 Announce Type: cross
摘要:在皮肤科开发视觉大型语言模型(LLMs)的主要障碍是没有大规模的图像-文本对数据集。我们介绍了DermaSynth数据集,包含92,020个合成图像-文本对,这些数据是从45,205张图像(13,568张临床图像和35,561张皮肤镜图像)中精选出来的,用于皮肤科相关的临床任务。利用最先进的LLMs,使用Gemini 2.0,我们采用与临床相关的提示和自我指导方法生成多样且丰富的合成文本。数据集的元数据被整合到输入提示中,以减少潜在的幻觉。该数据集建立在开放访问皮肤科图像 repositories(DERM12345、BCN20000、PAD-UFES-20、SCIN 和 HIBA)之上,这些 repositories 拥有宽松的CC-BY-4.0许可证。我们还针对5,000个样本对初步的Llama-3.2-11B-Vision-Instruct模型DermatoLlama 1.0进行了微调。我们期望该数据集能够支持并加速皮肤科的人工智能研究。该工作的底层数据和代码可在https://github.com/abdurrahimyilmaz/DermaSynth获取。