LLM2D
阐明多模态蛋白质语言模型的设计空间
Elucidating the Design Space of Multimodal Protein Language Models
作者: Cheng-Yen Hsieh, Xinyou Wang, Daiheng Zhang, Dongyu Xue, Fei Ye, Shujian Huang, Zaixiang Zheng, Quanquan Gu
发布日期: 4/17/2025
arXiv ID: oai:arXiv.org:2504.11454v2

摘要

arXiv:2504.11454v2 通告类型: replace-cross 摘要: 多模态蛋白质语言模型(PLMs)整合了序列和基于标记的结构信息,为蛋白质建模、生成和设计提供了强大的基础。然而,将3D结构划分为离散标记的方式导致了关于精细结构细节和相关性的大量失真。在本文中,我们系统地阐明了多模态PLMs的设计空间,以克服其局限性。我们确定标记化损失以及PLMs对结构标记预测的不准确性为主要瓶颈。为了解决这些问题,我们提出的创新设计空间涵盖了改进的生成建模、结构感知架构和表示学习,以及数据探索。我们的进展实现了更细粒度的监督,证明了基于标记的多模态PLMs可以在保持稳健结构建模的同时适应复杂的结构细节。有效的设计方法显著提高了结构生成的多样性,并且特别地,在PDB测试集上将RMSD从5.52降低到2.36,甚至超越了3B基线模型,与专门的折叠模型相当。