摘要
arXiv:2503.14538v3 通知类型: 替换-交叉
摘要:背景:本研究介绍了使用SIGLIP和Gemma-3b架构的视觉-语言模型(VLM),用于自动急性结核病(TB)筛查。通过整合胸部X光图像和临床笔记,该模型旨在提高诊断准确性和效率,特别是在资源匮乏的环境中。
方法:VLM 将胸部X光的视觉数据与临床背景结合,生成详细且上下文相关的诊断报告。该架构使用SIGLIP进行视觉编码,使用Gemma-3b进行解码,确保对急性TB特异性病理和临床洞察的有效表示。
结果:关键急性TB病理,包括实变、空洞和结节,的检测精度为97%,召回率为96%。该模型展示了强大的空间定位能力,并且在区分TB阳性病例方面表现出色,使其成为急性TB诊断的可靠工具。
结论:VLM 的多模态能力减少了对放射科医生的依赖,提供了一种可扩展的急性TB筛查解决方案。未来工作将集中在提高对细微病理的检测能力和解决数据集偏见,以增强其推广性和在不同全球医疗保健环境中的应用。