LLM2D
可控RNA序列生成的潜在扩散模型
Latent Diffusion Models for Controllable RNA Sequence Generation
作者: Kaixuan Huang, Yukang Yang, Kaidi Fu, Yanyi Chu, Le Cong, Mengdi Wang
发布日期: 10/3/2024
arXiv ID: oai:arXiv.org:2409.09828v2

摘要

这项工作提出了 RNAdiffusion,一种用于生成和优化可变长度离散 RNA 序列的潜在扩散模型。RNA 是 DNA 和蛋白质之间的关键媒介,表现出高度的序列多样性和复杂的 3D 结构,以支持各种功能。我们利用预训练的 BERT 型模型将原始 RNA 序列编码为令牌级别的、具有生物学意义的表示。查询 Transformer 用于将这些表示压缩为一组固定长度的潜在向量,并训练了一个自回归解码器,从这些潜在变量重建 RNA 序列。然后,我们在该潜在空间中开发了一个连续扩散模型。为了实现优化,我们将奖励模型(RNA 功能属性的替代模型)的梯度集成到反向扩散过程中,从而生成具有高奖励分数的 RNA。实证结果证实,RNAdiffusion 生成的非编码 RNA 在各种生物指标上与自然分布一致。此外,我们对 mRNA 5' 非翻译区 (5'-UTR) 微调扩散模型,并优化序列以获得高翻译效率。我们的引导扩散模型有效地生成了具有高平均核糖体负载 (MRL) 和翻译效率 (TE) 的多样化 5'-UTR,在平衡奖励和结构稳定性权衡方面优于基线。我们的发现有潜力推动 RNA 序列-功能研究和治疗性 RNA 设计的发展。