LLM2D

摘要

arXiv:2505.07683v1 交叉类型摘要：癌症基因组百科全书（TCGA）通过其协调的基因组学、临床和影像数据，使新型发现成为可能，并成为大规模的参考。先前的研究已经从单模态或跨模态的TCGA数据中训练了专门的癌症生存预测模型。现代生物医学深度学习的范式是开发基础模型（FMs）以提取与特定建模任务无关的意义特征嵌入。尤其是生物医学文本领域，FMs的发展正在增长。虽然TCGA包含病理报告等自由文本数据，但这些数据历来使用不足。在这里，我们研究了使用FMs提取的零样本嵌入训练经典的跨模态生存模型的可行性。我们展示了多模态融合的简便性和增益效果，优于单模态模型。我们展示了包括病理报告文本的益处，并严格评估了基于模型的文本总结和虚构的效果。总体而言，我们通过利用FMs和从病理报告中提取信息来现代化工生存模型。