摘要
arXiv:2502.13785v1 交叉公告类型:交叉
摘要:基于mRNA的疫苗已成为制药行业的重点。mRNA的编码序列以及非翻译区(UTRs)可以强烈影响翻译效率、稳定性、降解及其他共同决定疫苗有效性的因素。然而,针对这些特性的mRNA序列优化仍然是一个复杂的挑战。现有的深度学习模型往往只专注于编码区域的优化,忽视了UTRs。我们提出了Helix-mRNA,这是一种基于结构状态空间和注意力机制的混合模型,以应对这些挑战。除了一个初始预训练外,一个第二阶段的预训练使我们能够使用高质量的数据专门化模型。我们采用单碱基配对的mRNA序列分词,并保留了原mRNA序列的先前生物和结构信息。我们的模型Helix-mRNA在分析UTRs和编码区域特性方面优于现有方法。它可以处理比当前方法长6倍的序列,同时仅使用现有基础模型10%的参数。其预测能力适用于mRNA的所有区域。我们公开了该模型(https://github.com/helicalAI/helical)及其模型权重(https://huggingface.co/helical-ai/helix-mRNA)。