摘要
arXiv:2403.03726v2 宣布类型: 替换-交叉
摘要:蛋白质序列设计已通过离散扩散和自回归方法取得了显著进展,但连续扩散的潜力尚未得到充分探索。在此,我们介绍了DiMA,这是一种基于蛋白质语言模型表示的隐空间扩散框架。通过系统地探索架构选择和扩散组件,我们开发了一种稳健的方法,该方法可以在从8M到3B参数的多种蛋白质编码器之间进行泛化。我们证明了我们的框架在仅序列(SMG-2, ESMc)、双可解码(CHEAP)和多模态(SaProt)表示下,使用相同的架构和训练方法都能实现一致的高性能。我们使用多种度量标准,涵盖了两种蛋白质模态下的质量和多样性、新颖性和生成蛋白质的分布匹配,对现有方法与DiMA进行广泛评估。DiMA始终能够生成新颖、高质量和多样性的蛋白质序列,并在与自回归、离散扩散和流匹配语言模型的基线方法相比时表现出很好的结果。该模型展示了多功能性,支持条件生成任务,包括蛋白质家族生成、模式骨架和填空,以及特定折叠序列设计。这项工作提供了一种适用于蛋白质序列生成的通用连续扩散框架,不仅提供了架构见解,还在各种蛋白质设计场景中具有实际应用性。