LLM2D

摘要

arXiv:2403.03726v2 宣布类型: 替换-交叉摘要：蛋白质序列设计已通过离散扩散和自回归方法取得了显著进展，但连续扩散的潜力尚未得到充分探索。在此，我们介绍了DiMA，这是一种基于蛋白质语言模型表示的隐空间扩散框架。通过系统地探索架构选择和扩散组件，我们开发了一种稳健的方法，该方法可以在从8M到3B参数的多种蛋白质编码器之间进行泛化。我们证明了我们的框架在仅序列(SMG-2, ESMc)、双可解码(CHEAP)和多模态(SaProt)表示下，使用相同的架构和训练方法都能实现一致的高性能。我们使用多种度量标准，涵盖了两种蛋白质模态下的质量和多样性、新颖性和生成蛋白质的分布匹配，对现有方法与DiMA进行广泛评估。DiMA始终能够生成新颖、高质量和多样性的蛋白质序列，并在与自回归、离散扩散和流匹配语言模型的基线方法相比时表现出很好的结果。该模型展示了多功能性，支持条件生成任务，包括蛋白质家族生成、模式骨架和填空，以及特定折叠序列设计。这项工作提供了一种适用于蛋白质序列生成的通用连续扩散框架，不仅提供了架构见解，还在各种蛋白质设计场景中具有实际应用性。