LLM2D

摘要

蛋白质逆折叠——即预测会折叠成所需 3D 结构的氨基酸序列——是基于结构的蛋白质设计中的一个重要问题。基于机器学习的逆折叠方法通常使用恢复原始序列作为优化目标。然而，逆折叠是一个多对一问题，其中多个序列可以折叠成相同的结构。此外，对于许多实际应用，通常需要多个不同的序列折叠成目标结构，因为它允许为下游优化提供更多候选序列。在这里，我们证明了尽管最近的逆折叠方法显示出增加的序列恢复率，但它们的“可折叠多样性”（即它们生成多个不相似序列的能力，这些序列折叠成与目标一致的结构）并没有增加。为了解决这个问题，我们提出了 RL-DIF，这是一种用于逆折叠的分类扩散模型，它在序列恢复方面进行了预训练，并通过强化学习对结构一致性进行了微调。我们发现，RL-DIF 在序列恢复和结构一致性方面达到了与基准模型相当的水平，但显示出更大的可折叠多样性：实验表明，RL-DIF 在 CATH 4.2 上可以实现 29% 的可折叠多样性，而使用相同数据集训练的模型则为 23%。PyTorch 模型权重和采样代码可在 GitHub 上获取。