LLM2D
多模态知识增强的全切片病理基础模型
A Multimodal Knowledge-enhanced Whole-slide Pathology Foundation Model
作者: Yingxue Xu, Yihui Wang, Fengtao Zhou, Jiabo Ma, Cheng Jin, Shu Yang, Jinbang Li, Zhengyu Zhang, Chenglong Zhao, Huajun Zhou, Zhenhui Li, Huangjing Lin, Xin Wang, Jiguang Wang, Anjia Han, Ronald Cheong Kin Chan, Li Liang, Xiuming Zhang, Hao Chen
发布日期: 3/26/2025
arXiv ID: oai:arXiv.org:2407.15362v3

摘要

arXiv:2407.15362v3 通要注意型: 替换跨领域 摘要:在任务无意识的基础模型领域,计算病理学在促进各种下游临床任务方面取得了令人瞩目的进展。尽管取得了有前景的性能,但仍存在一些挑战。首先,前人工作采用的是仅视觉或图像-描述数据,忽视了病理学家提供的更具有临床真实性信息的病理报告以及基因表达谱,这些分别提供了不同的知识,适用于多样的临床应用。其次,目前病理FMs在病理切片层面取得的进展主要集中在patch层面,而patch层面预训练的限制上下文未能捕捉到整张切片的模式。即使最近的滑块级别FMs仍然难以为patch表示提供整张切片的上下文。在这项研究中,我们首次开发了一种整合三类模态(病理切片、病理科报告和基因表达数据)的病理基础模型,由此产生了来自32种癌症类型的10,275名患者的26,169张切片级模态对,共计超过1.16亿张病理切片图像。为了利用这些数据服务于CPath,我们提出了一种新颖的整张切片级别的多模态预训练范式,将多模态整张切片上下文注入到patch表示中,命名为多模态自我TAught PRetraining (mSTAR)。提出的范式彻底改变了CPath的预训练工作流程,使病理FMs能够获得整张切片的上下文。据我们所知,这是第一次尝试在整张切片上下文中整合三种模态以增强病理FMs的努力。为了系统地评估mSTAR的能力,我们建立了涵盖97种实际肿瘤学任务的最广泛的肿瘤学基准谱系,包括15类肿瘤学应用中的7个类别。