摘要
arXiv:2504.02148v1 宣告类型: 新
摘要: 受多种蛋白质丰度和相互作用调控的复杂细胞信号系统在不同器官中生成多种细胞类型。这些系统受到年龄、性别、饮食、环境暴露和疾病等多种因素的影响而演化,因此在涉及数万种基因和蛋白质的情况下,解码这些信号网络具有挑战性。最近,数百亿条单细胞组学数据为理解不同细胞亚群和条件下这些信号网络提供了坚实的基础。受到大规模基础模型(例如大型语言模型和大型视觉模型)在大规模数据集上预训练成功的启发,我们引入了 OmniCellTOSG,这是第一个细胞文本-组学信号图(TOSG)数据集。每个 TOSG 表示个体或元细胞的信号网络,并带有器官、疾病、性别、年龄和细胞亚型等信息的标签。OmniCellTOSG 提供了两个关键贡献。首先,它引入了一种新的图模型,将生物学功能、细胞位置、信号通路、相关疾病和药物等可读注释与定量的基因和蛋白质丰度数据整合在一起,使图推理能够解码细胞信号。这需要新的结合大型语言模型和图神经网络的联合模型。其次,该数据集基于大约1.2亿个来自多种组织和条件(健康和患病)的单细胞RNA测序数据构建,并完全兼容 PyTorch。这为开发创新的细胞信号模型铺平了道路,这些模型可以彻底改变生命科学、医疗保健和精准医学领域。OmniCellTOSG 数据集持续扩展,并将定期更新。数据集和代码可在 https://github.com/FuhaiLiAiLab/OmniCellTOSG 获取。