摘要
arXiv:2505.07683v1 交叉类型
摘要:癌症基因组百科全书(TCGA)通过其协调的基因组学、临床和影像数据,使新型发现成为可能,并成为大规模的参考。先前的研究已经从单模态或跨模态的TCGA数据中训练了专门的癌症生存预测模型。现代生物医学深度学习的范式是开发基础模型(FMs)以提取与特定建模任务无关的意义特征嵌入。尤其是生物医学文本领域,FMs的发展正在增长。虽然TCGA包含病理报告等自由文本数据,但这些数据历来使用不足。在这里,我们研究了使用FMs提取的零样本嵌入训练经典的跨模态生存模型的可行性。我们展示了多模态融合的简便性和增益效果,优于单模态模型。我们展示了包括病理报告文本的益处,并严格评估了基于模型的文本总结和虚构的效果。总体而言,我们通过利用FMs和从病理报告中提取信息来现代化工生存模型。