LLM2D
ProtFlow:通过压缩蛋白质语言模型嵌入的流匹配进行快速蛋白质序列设计
ProtFlow: Fast Protein Sequence Design via Flow Matching on Compressed Protein Language Model Embeddings
作者: Zitai Kong, Yiheng Zhu, Yinlong Xu, Hanjing Zhou, Mingzhe Yin, Jialu Wu, Hongxia Xu, Chang-Yu Hsieh, Tingjun Hou, Jian Wu
发布日期: 4/16/2025
arXiv ID: oai:arXiv.org:2504.10983v1

摘要

arXiv:2504.10983v1 交叉通告类型:跨学科 摘要:设计具有所需功能的蛋白质序列是蛋白质工程中的基本任务。深度生成方法,如自回归模型和扩散模型,极大地加速了新型蛋白质序列的发现。然而,这些方法主要关注局部或浅层残差语义,并且存在推理效率低、模型空间大和训练成本高的问题。为了解决这些挑战,我们引入了ProtFlow,这是一个基于蛋白质语言模型语义有意义的潜在空间衍生嵌入的快速流匹配蛋白质序列设计框架。通过压缩和平滑潜在空间,ProtFlow在有限的计算资源下提高了性能。利用重流技术,ProtFlow实现了高质量的一步序列生成。此外,我们还开发了一套联合设计管道,用于多链蛋白质的设计场景。我们在包括通用肽、长链蛋白质、抗菌肽和抗体在内的多种蛋白质设计任务中评估了ProtFlow。实验结果表明,ProtFlow在这些应用中优于特定任务的方法,突显了其在计算蛋白质序列设计和分析中的潜力和广泛适用性。