摘要
计算蛋白质设计(CPD)为生物工程带来了变革性的潜力,但当前专注于通用结构域的深度CPD模型在特定功能的设计方面举步维艰。这项工作引入了一种针对功能设计任务的新型CPD范式,特别是针对酶——一种经常缺乏特定应用效率的关键蛋白质类别。为了解决结构数据稀缺的问题,我们提出了CrossDesign,一个利用预训练蛋白质语言模型(PPLM)的领域自适应框架。通过将蛋白质结构与序列对齐,CrossDesign将预训练知识转移到结构模型,克服了结构数据有限的局限性。该框架在其编码器-解码器架构中结合了自回归(AR)和非自回归(NAR)状态,并将其应用于酶数据集和全蛋白质。实验结果突出了CrossDesign优越的性能和鲁棒性,尤其是在处理域外酶时。此外,该模型在针对大规模突变数据进行测试时的适应性预测表现出色,展现了其稳定性。