LLM2D
Prot42:一种新型蛋白质语言模型家族,用于目标导向的蛋白质配体生成
Prot42: a Novel Family of Protein Language Models for Target-aware Protein Binder Generation
作者: Mohammad Amaan Sayeed, Engin Tekin, Maryam Nadeem, Nancy A. ElNaker, Aahan Singh, Natalia Vassilieva, Boulbaba Ben Amor
发布日期: 4/8/2025
arXiv ID: oai:arXiv.org:2504.04453v1

摘要

arXiv:2504.04453v1 类型:交叉 摘要:解锁新一代生物技术和治疗创新所需的高亲和力抗体和识别分子的生成,需要克服传统蛋白质工程方法所固有的复杂性和资源密集性。近年来,基于GenAI的计算技术通常依赖于目标蛋白质的3D结构和特定结合位点来生成高亲和力的结合分子,如AlphaProteo和RFdiffusion模型所展示的。在这项工作中,我们探讨了使用蛋白质语言模型(pLMs)来生成高亲和力结合分子的方法。我们引入了Prot42,这是一种新型的蛋白质语言模型(pLMs),以大量未标记的蛋白质序列进行预训练。通过一种先进的自回归解码器架构,该架构受到自然语言处理领域突破性进展的启发,Prot42极大地扩展了基于语言的计算蛋白质设计能力。值得注意的是,我们的模型可以处理多达8,192个氨基酸的序列,大幅超过了标准限制,使得大分子和复杂多 domain 序列的精确建模成为可能。展示了强大的实际应用,Prot42在生成高亲和力蛋白质结合分子和序列特异性DNA结合蛋白方面表现出色。我们的创新模型现在是开源的,为科学界提供了一个高效的精确计算工具箱,以加速蛋白质工程。