LLM2D
肽识别的通用语言模型
A general language model for peptide identification
作者: Jixiu Zhai, Tianchi Lu, Haitian Zhong, Ziyang Xu, Yuhuan Liu, Shengrui Xu, Jingwan Wang, Dan Huang
发布日期: 4/18/2025
arXiv ID: oai:arXiv.org:2502.15610v2

摘要

arXiv:2502.15610v2 声明类型: replace-cross 摘要:肽识别领域的进展正在彻底改变我们解读蛋白质功能和加速药物发现的能力。我们提出了 PDeepPP,这是一种将预训练蛋白质语言模型与并行变压器-CNN 架构结合的深度学习框架,实现了肽特征表征任务中的顶级性能。该模型的混合架构展示了在捕捉局部序列模式和全局结构特征方面的独特能力,其证据在于与传统方法相比,在 UMAP 可视化中簇分离度提高了 29%。在涵盖 33 个生物识别任务(包括翻译后修饰位点预测和生物活性肽识别)的评估中,PDeepPP 在 25 个任务中超过了现有方法,平均 AUC 提高了 4.2%。值得注意的是,在抗菌肽检测方面,PDeepPP 达到了 0.9726 的准确性,PR AUC 为 0.9977,同时在抗疟疾识别场景中将假阴性率减少了 37.5%。该框架能够实现大规模肽分析的精确性,相对于序列比对方法实现了 218 倍的加速,在关键的糖基化位点检测中维持了 99.5% 的特异性。PDeepPP 通过其协同架构设计,建立了计算肽分析的新范式,使其能够快速而准确地将分子模式识别与转化生物医药应用相结合。我们已通过 GitHub(https://github.com/fondress/PDeepPP)和 Hugging Face(https://huggingface.co/fondress/PDeppPP)发布了我们的实现,包括代码、数据和预训练模型。