LLM2D
GRAPE: 异质图表示学习在编码和非编码生物类型遗传扰动中的应用
GRAPE: Heterogeneous Graph Representation Learning for Genetic Perturbation with Coding and Non-Coding Biotype
作者: Changxi Chi, Jun Xia, Jingbo Zhou, Jiabei Cheng, Chang Yu, Stan Z. Li
发布日期: 5/8/2025
arXiv ID: oai:arXiv.org:2505.03853v1

摘要

arXiv:2505.03853v1 Announce Type: cross 摘要:预测基因扰动能够在湿实验之前识别出可能至关重要的基因,显著提高整体实验效率。由于基因是细胞生命的基础,构建基因调控网络(GRN)对于理解并预测基因扰动的影响至关重要。然而,当前的方法无法充分利用与基因相关的信息,并且仅仅依赖简单的评价指标来构建粗粒度的GRN。更重要的是,这些方法忽略了不同生物类型的功能差异,限制了捕捉潜在基因互作的能力。在这项工作中,我们利用预训练的大语言模型和DNA序列模型分别从基因描述和DNA序列数据中提取特征,作为基因表示的初始化。此外,我们首次在基因扰动中引入了基因生物类型信息,模拟了不同生物类型基因在调控细胞过程中的不同角色,并通过图结构学习(GSL)捕捉隐含的基因关系。我们提出了GRAPE,这是一种异质图神经网络(HGNN),能够利用从描述和序列中提取的特征初始化的基因表示,建模不同生物类型基因的不同角色,并通过GSL动态优化GRN。在公开可用的数据集上的结果显示,我们的方法取得了最先进的性能。