摘要
arXiv:2502.06913v1 宣称类型:交叉
摘要:今天的蛋白质在数十亿年的自然进化中已经得到了优化,在这个过程中,自然界创造出随机突变并进行选择。发现具有功能潜力的突变面临着进化可及区域有限的挑战,即只有适应度景观上的一个小区域是有益的。在限制蛋白质进化到具有高适应度变体的景观区域方面,已经使用了众多先验知识,其中蛋白质复合物在突变时结合自由能的变化(DDG)是最常用的先验之一。然而,巨大的突变空间带来了两个挑战:(1)如何提高DDG预测的效率,以便快速筛选突变;(2)如何解释突变偏好并有效地探索可访问的进化区域。为了解决这些挑战,我们提出了一种轻量级的DDG预测器(Light-DDG),它采用结构感知的Transformer作为骨干,并通过从现有的强大但计算成本高昂的DDG预测器中提炼的知识对其进行增强。此外,我们还扩大、标注并发布了包含数百万突变数据的大规模数据集,用于预训练Light-DDG。我们发现,这种简单而有效的Light-DDG可以作为良好的无监督抗体优化器和解释器。对于目标抗体,我们提出了一种新的突变解释器来学习突变偏好,这考虑了每个残基中每个突变的边际效益。为进一步探索可访问的进化区域,我们进行了偏好引导的抗体优化,并使用Light-DDG迅速评估抗体候选者,以识别理想的突变。