LLM2D

摘要

计算蛋白质设计（CPD）为生物工程带来了变革性的潜力，但当前专注于通用结构域的深度CPD模型在特定功能的设计方面举步维艰。这项工作引入了一种针对功能设计任务的新型CPD范式，特别是针对酶——一种经常缺乏特定应用效率的关键蛋白质类别。为了解决结构数据稀缺的问题，我们提出了CrossDesign，一个利用预训练蛋白质语言模型（PPLM）的领域自适应框架。通过将蛋白质结构与序列对齐，CrossDesign将预训练知识转移到结构模型，克服了结构数据有限的局限性。该框架在其编码器-解码器架构中结合了自回归（AR）和非自回归（NAR）状态，并将其应用于酶数据集和全蛋白质。实验结果突出了CrossDesign优越的性能和鲁棒性，尤其是在处理域外酶时。此外，该模型在针对大规模突变数据进行测试时的适应性预测表现出色，展现了其稳定性。