LLM2D
焦点:基于知识增强的自适应视觉压缩用于小样本全幻灯片图像分类
FOCUS: Knowledge-enhanced Adaptive Visual Compression for Few-shot Whole Slide Image Classification
作者: Zhengrui Guo, Conghao Xiong, Jiabo Ma, Qichen Sun, Lishuang Feng, Jinzhuo Wang, Hao Chen
发布日期: 11/25/2024
arXiv ID: oai:arXiv.org:2411.14743v1

摘要

少样本学习为计算病理学 (CPath) 中的癌症诊断提供了一种关键解决方案,解决了数据可用性方面的根本性局限性,特别是专家注释的稀缺性和患者隐私限制。这种范式中的一个关键挑战源于有限的整张切片图像 (WSI) 训练集与包含的大量图像块之间固有的差异,其中大部分图像块缺乏诊断相关信息,这可能会稀释模型学习和关注关键诊断特征的能力。虽然最近的一些工作试图通过结合额外的知识来解决这个问题,但几个关键差距阻碍了进一步的进展:(1)尽管强大的病理基础模型 (FM) 出现,但其潜力在很大程度上尚未得到开发,大多数方法将其用途限制在基本的特征提取上;(2)当前的语言指导机制试图将文本提示与大量的 WSI 图像块同时对齐,难以利用丰富的病理语义信息。为此,我们引入了知识增强的自适应视觉压缩框架,称为 FOCUS,它独特地结合了病理 FM 和语言先验知识,通过优先处理具有判别性的 WSI 图像块来实现对诊断相关区域的重点分析。我们的方法实现了一个渐进的三阶段压缩策略:我们首先利用 FM 进行全局视觉冗余消除,并将压缩后的特征与语言提示相结合以进行语义相关性评估,然后在保持空间一致性的同时执行邻域感知视觉标记过滤。在涵盖乳腺癌、肺癌和卵巢癌的病理数据集上进行的大量实验表明,它在少样本病理诊断中具有优越的性能。代码将可在 https://github.com/dddavid4real/FOCUS 获取。