LLM2D
泛蛋白质设计学习赋能低资源酶设计中的任务自适应泛化
Pan-protein Design Learning Enables Task-adaptive Generalization for Low-resource Enzyme Design
作者: Jiangbin Zheng, Ge Wang, Han Zhang, Stan Z. Li
发布日期: 11/28/2024
arXiv ID: oai:arXiv.org:2411.17795v1

摘要

计算蛋白质设计(CPD)为生物工程带来了变革性的潜力,但当前专注于通用结构域的深度CPD模型在特定功能的设计方面举步维艰。这项工作引入了一种针对功能设计任务的新型CPD范式,特别是针对酶——一种经常缺乏特定应用效率的关键蛋白质类别。为了解决结构数据稀缺的问题,我们提出了CrossDesign,一个利用预训练蛋白质语言模型(PPLM)的领域自适应框架。通过将蛋白质结构与序列对齐,CrossDesign将预训练知识转移到结构模型,克服了结构数据有限的局限性。该框架在其编码器-解码器架构中结合了自回归(AR)和非自回归(NAR)状态,并将其应用于酶数据集和全蛋白质。实验结果突出了CrossDesign优越的性能和鲁棒性,尤其是在处理域外酶时。此外,该模型在针对大规模突变数据进行测试时的适应性预测表现出色,展现了其稳定性。