LLM2D
具有潜在空间扩散的鉴别性蛋白质序列建模
Discriminative protein sequence modelling with Latent Space Diffusion
作者: Eoin Quinn, Ghassene Jebali, Maxime Seince, Oliver Bent
发布日期: 3/25/2025
arXiv ID: oai:arXiv.org:2503.18551v1

摘要

arXiv:2503.18551v1 型别: cross 摘要: 我们探讨了一种蛋白质序列表示学习的框架,该框架将任务分解为流形学习和分布建模之间的分工。具体来说,我们提出了一种潜在空间扩散架构,将蛋白质序列自动编码器与在其潜在空间上运行的去噪扩散模型相结合。我们从扩散模型中获得了具有单参数的已学习表示形式,以及自动编码器的潜在表示。我们提出了两种自动编码器架构:一种同质模型,要求相同类型的氨基酸在潜在空间中具有相同的分布,以及一种使用基于噪声的掩码变体的异质模型。作为基线,我们使用掩码语言建模学习的潜在空间,并在一系列蛋白质属性预测任务上评估其辨别能力。我们的研究发现是两方面的:在我们提出的两种变体上训练的扩散模型显示出比基于掩码语言模型基线训练的模型更高的辨别力,然而,没有任何一种扩散表示能够达到掩码语言模型嵌入自身的性能。