LLM2D

摘要

arXiv:2503.14536v2 通知类型: replace-cross 摘要：背景：本研究提出了一种利用SIGLIP编码器和Gemma-3b变压器解码器的视觉语言模型（VLM），以增强自动化慢性结核病（TB）筛查。通过结合胸部X光影像和临床数据，该模型解决了人工解释的挑战，提高了诊断的一致性和可访问性，特别是在资源受限的环境中。方法：VLM架构结合了视觉变换器（ViT）进行视觉编码和基于变压器的语言编码器，以处理临床上下文，如患者历史和治疗记录。跨模态注意力机制将影像特征与文本信息对齐，而Gemma-3b解码器生成全面的诊断报告。该模型在500万对医学图像和文本上进行了预训练，并使用10万张特定于慢性TB的胸部X光图像进行了微调。结果：该模型在检测纤维化、钙化脓肿和支气管扩张等关键慢性TB病理方面表现出高精度（94%）和召回率（94%）。曲线下面积（AUC）分数超过0.93，交并比（IoU）值高于0.91，验证了其在检测和定位TB相关异常方面的有效性。结论：VLM为自动化慢性TB诊断提供了稳健且可扩展的解决方案，通过整合影像和临床数据，提供可操作且上下文相关的见解。未来的工作将解决细微病理变化和数据集偏见，以增强模型的普适性，确保在不同人群和医疗保健环境中实现公平的性能。