LLM2D

摘要

arXiv:2502.02471v1 公告类型: cross 摘要：近期基础模型的进步已经改变了计算机视觉领域，在包括数字病理组织学在内的多个领域推动了显著的性能改进。然而，针对专门任务如细胞分析，领域特定的病理组织学基础模型相较于通用基础模型的优势仍然有待探索。本研究通过分析应用于细胞实例分割和分类的多层斑块嵌入，研究了这两种类别之间的表示学习差距。我们实现了一个编码-解码架构，解码器保持一致，而编码器包含卷积、视觉变压器（ViT）以及混合编码器，这些编码器在ImageNet-22K或LVD-142M上进行了预训练，代表了通用基础模型。我们还将这些编码器与最近发布的UNI、Virchow2和Prov-GigaPath基础模型中训练在从数十万张病理组织学全切片图像中提取的斑块上的视觉变压器编码器进行了比较。解码器通过跳连将来自不同编码器深度的斑块嵌入结合，生成语义和距离图。随后通过后处理生成实例分割掩码，其中每个标签对应一个单独的细胞，并进行细胞类型分类。在训练过程中，所有编码器保持冻结状态，以评估它们的预训练特征提取能力。利用PanNuke和CoNIC病理组织学数据集，以及最近引入的用于大脑细胞架构研究的Nissl染色CytoDArk0数据集，我们评估了实例级检测、分割准确性和细胞类型分类。本研究提供了通用基础模型与病理组织学基础模型之间比较优势和限制的见解，为细胞焦点病理组织学和大脑细胞架构分析流程中的模型选择提供指导。