摘要
蛋白质逆折叠——即预测会折叠成所需 3D 结构的氨基酸序列——是基于结构的蛋白质设计中的一个重要问题。基于机器学习的逆折叠方法通常使用恢复原始序列作为优化目标。然而,逆折叠是一个多对一问题,其中多个序列可以折叠成相同的结构。此外,对于许多实际应用,通常需要多个不同的序列折叠成目标结构,因为它允许为下游优化提供更多候选序列。在这里,我们证明了尽管最近的逆折叠方法显示出增加的序列恢复率,但它们的“可折叠多样性”(即它们生成多个不相似序列的能力,这些序列折叠成与目标一致的结构)并没有增加。为了解决这个问题,我们提出了 RL-DIF,这是一种用于逆折叠的分类扩散模型,它在序列恢复方面进行了预训练,并通过强化学习对结构一致性进行了微调。我们发现,RL-DIF 在序列恢复和结构一致性方面达到了与基准模型相当的水平,但显示出更大的可折叠多样性:实验表明,RL-DIF 在 CATH 4.2 上可以实现 29% 的可折叠多样性,而使用相同数据集训练的模型则为 23%。PyTorch 模型权重和采样代码可在 GitHub 上获取。