摘要
arXiv:2503.23014v1 跨物种类型:跨物种
摘要:动机:近年来,蛋白质功能预测已经突破了序列特征的瓶颈,通过AlphaFold2预测的高度精确的蛋白质结构显著提高了预测准确性。虽然单物种蛋白质功能预测方法已经取得了显著的成功,但跨物种蛋白质功能预测方法仍处于使用PPI网络和序列特征的阶段。为物种稀疏的蛋白质注释提供有效的跨物种标签传播仍然是一个具有挑战性的问题。为了解决这个问题,我们提出了MSNGO模型,该模型结合了结构特征和网络传播方法。我们的验证结果显示,使用结构特征可以显著提高跨物种蛋白质功能预测的准确性。结果:我们采用图表示学习技术从蛋白质结构接触图中提取氨基酸表示,并使用图卷积池化模块训练一个结构模型以提取蛋白质级别的结构特征。在此基础上,我们从ESM-2引入序列特征,并应用网络传播算法来聚合信息并在异构网络中更新节点表示。结果表明,MSNGO优于依赖于序列特征和PPI网络的先前跨物种蛋白质功能预测方法。可用性:https://github.com/blingbell/MSNGO。