LLM2D
利用视觉-语言模型推进慢性 tuberculosis 诊断:一种多模态精确分析框架
Advancing Chronic Tuberculosis Diagnostics Using Vision-Language Models: A Multi modal Framework for Precision Analysis
作者: Praveen Shastry, Sowmya Chowdary Muthulur, Naveen Kumarasami, Anandakumar D, Mounigasri M, Keerthana R, Kishore Prasath Venkatesh, Bargava Subramanian, Kalyan Sivasailam, Revathi Ezhumalai, Abitha Marimuthu
发布日期: 3/31/2025
arXiv ID: oai:arXiv.org:2503.14536v2

摘要

arXiv:2503.14536v2 通知类型: replace-cross 摘要:背景:本研究提出了一种利用SIGLIP编码器和Gemma-3b变压器解码器的视觉语言模型(VLM),以增强自动化慢性结核病(TB)筛查。通过结合胸部X光影像和临床数据,该模型解决了人工解释的挑战,提高了诊断的一致性和可访问性,特别是在资源受限的环境中。 方法:VLM架构结合了视觉变换器(ViT)进行视觉编码和基于变压器的语言编码器,以处理临床上下文,如患者历史和治疗记录。跨模态注意力机制将影像特征与文本信息对齐,而Gemma-3b解码器生成全面的诊断报告。该模型在500万对医学图像和文本上进行了预训练,并使用10万张特定于慢性TB的胸部X光图像进行了微调。 结果:该模型在检测纤维化、钙化脓肿和支气管扩张等关键慢性TB病理方面表现出高精度(94%)和召回率(94%)。曲线下面积(AUC)分数超过0.93,交并比(IoU)值高于0.91,验证了其在检测和定位TB相关异常方面的有效性。 结论:VLM为自动化慢性TB诊断提供了稳健且可扩展的解决方案,通过整合影像和临床数据,提供可操作且上下文相关的见解。未来的工作将解决细微病理变化和数据集偏见,以增强模型的普适性,确保在不同人群和医疗保健环境中实现公平的性能。