摘要
arXiv:2503.14536v2 通知类型: replace-cross
摘要:背景:本研究提出了一种利用SIGLIP编码器和Gemma-3b变压器解码器的视觉语言模型(VLM),以增强自动化慢性结核病(TB)筛查。通过结合胸部X光影像和临床数据,该模型解决了人工解释的挑战,提高了诊断的一致性和可访问性,特别是在资源受限的环境中。
方法:VLM架构结合了视觉变换器(ViT)进行视觉编码和基于变压器的语言编码器,以处理临床上下文,如患者历史和治疗记录。跨模态注意力机制将影像特征与文本信息对齐,而Gemma-3b解码器生成全面的诊断报告。该模型在500万对医学图像和文本上进行了预训练,并使用10万张特定于慢性TB的胸部X光图像进行了微调。
结果:该模型在检测纤维化、钙化脓肿和支气管扩张等关键慢性TB病理方面表现出高精度(94%)和召回率(94%)。曲线下面积(AUC)分数超过0.93,交并比(IoU)值高于0.91,验证了其在检测和定位TB相关异常方面的有效性。
结论:VLM为自动化慢性TB诊断提供了稳健且可扩展的解决方案,通过整合影像和临床数据,提供可操作且上下文相关的见解。未来的工作将解决细微病理变化和数据集偏见,以增强模型的普适性,确保在不同人群和医疗保健环境中实现公平的性能。