LLM2D
在临床病理分析中高效且全面的特征提取在大型视觉-语言模型中的应用
Efficient and Comprehensive Feature Extraction in Large Vision-Language Model for Clinical Pathology Analysis
作者: Shengxuming Zhang, Weihan Li, Tianhong Gao, Jiacong Hu, Haoming Luo, Xiuming Zhang, Jing Zhang, Mingli Song, Zunlei Feng
发布日期: 5/13/2025
arXiv ID: oai:arXiv.org:2412.09521v2

摘要

arXiv:2412.09521v2 通知类型: 替换交叉 摘要:病理诊断对于确定疾病特征、指导治疗和评估预后至关重要,依赖于对高分辨率全玻片图像(WSI)进行详细、多尺度的分析。然而,传统的纯视觉模型面临着冗余特征提取的挑战,而现有的大规模视觉-语言模型(LVLMs)则受限于输入分辨率的限制,影响了它们的效率和准确性。为了克服这些问题,我们提出两项创新策略:混合任务引导的特征增强,它将特征提取引导至不同尺度下与病变相关的细节,并且通过特定提示引导的细节特征完成策略,它基于特定提示将WSI的粗略和精细特征集成起来,而不会牺牲推理速度。利用包含490,000个样本的综合数据集,其中包括癌症检测、分级、血管和神经入侵识别等各种病理任务,我们训练了专门用于病理的LVLM,OmniPath。广泛的实验表明,该模型在诊断准确性和效率方面显著优于现有方法,提供了一种与临床一致、交互式的辅助诊断方法,适用于各种病理应用中。