LLM2D

摘要

arXiv:2412.09521v2 通知类型: 替换交叉摘要：病理诊断对于确定疾病特征、指导治疗和评估预后至关重要，依赖于对高分辨率全玻片图像（WSI）进行详细、多尺度的分析。然而，传统的纯视觉模型面临着冗余特征提取的挑战，而现有的大规模视觉-语言模型（LVLMs）则受限于输入分辨率的限制，影响了它们的效率和准确性。为了克服这些问题，我们提出两项创新策略：混合任务引导的特征增强，它将特征提取引导至不同尺度下与病变相关的细节，并且通过特定提示引导的细节特征完成策略，它基于特定提示将WSI的粗略和精细特征集成起来，而不会牺牲推理速度。利用包含490,000个样本的综合数据集，其中包括癌症检测、分级、血管和神经入侵识别等各种病理任务，我们训练了专门用于病理的LVLM，OmniPath。广泛的实验表明，该模型在诊断准确性和效率方面显著优于现有方法，提供了一种与临床一致、交互式的辅助诊断方法，适用于各种病理应用中。