LLM2D

摘要

arXiv:2502.02471v1 基础模型类型：跨领域摘要：基础模型的 recent 进展已经改变了计算机视觉领域，推动了包括数字病理学在内的多个领域的显著性能提升。然而，针对专门任务如细胞分析，领域特定的病理基础模型相对于通用模型的优势仍未被充分探索。本研究通过分析应用于细胞实例分割和分类的多级补丁嵌入，探讨了这两类模型之间的表示学习差距。我们实现了一个编码器-解码器架构，具有一致的解码器和各种编码器。这些包括在 ImageNet-22K 或 LVD-142M 上微调的卷积、视觉变压器（ViT）和混合编码器，代表了通用基础模型。这些模型与新发布的 UNI、Virchow2 和 Prov-GigaPath 的 ViT 编码器进行比较，这些编码器是在大量病理学全切片图像中提取的补丁上训练的。解码器通过跳跃连接整合来自不同编码器深度的补丁嵌入，生成语义和距离图。然后对这些图进行后处理以生成实例分割掩码，其中每个标签对应一个单独的细胞，并执行细胞类型分类。所有编码器在训练期间保持冻结，以评估其预训练的特征提取能力。使用 PanNuke 和 CoNIC 病理学数据集以及新引入的 Nissl 染色 CytoDArk0 数据集（适用于大脑细胞结构研究），我们评估实例级别检测、分割精度和细胞类型分类。本研究提供了通用基础模型与病理学基础模型之间相对优势和局限性的见解，为细胞导向的病理学和大脑细胞结构分析工作流程中的模型选择提供指导。