摘要
arXiv:2502.07299v1 Announce Type: cross
摘要:DNA、RNA和蛋白质之间的相互作用是生物学过程的基础,正如分子生物学的核心教义所展示的那样。虽然现代生物预训练模型在分析这些大分子方面取得了巨大的成功,但它们之间的相互联系仍处于探索阶段。在这篇论文中,我们遵循核心教义的指导,重新设计数据和模型管道,并提供了一个涵盖不同生物功能的全面框架——Life-Code。在数据流方面,我们提出了一种统一的管道,通过逆转录RNA和逆转录氨基酸为核苷酸为基础的序列来整合多组学数据。在模型方面,我们设计了一个密码子分词器和一种混合长序列架构,通过掩码建模预训练来编码编码和非编码区域的相互作用。为了用编码序列建模翻译和折叠过程,Life-Code通过从现成的蛋白质语言模型的知识蒸馏来学习相应氨基酸的蛋白质结构。这样的设计使Life-Code能够捕捉遗传序列中的复杂相互作用,从而为多组学分析和解释提供更全面的理解。广泛的实验表明,Life-Code在三个组学的各种任务上取得了最先进的性能,突显了其在推进多组学分析和解释方面的潜力。