摘要
arXiv:2504.11454v1 宣告类型: cross
摘要: 多模态蛋白质语言模型(PLMs)整合了序列和基于标记的结构信息,为蛋白质建模、生成和设计提供了强大的基础。然而,将3D结构分词成离散标记的做法导致了对细粒度结构细节和相关性的大量信息损失。在本文中,我们系统地阐述了多模态PLMs的设计空间,以克服其局限性。我们识别出分词损失以及PLMs对结构标记的不准确预测是主要瓶颈。为解决这些问题,我们提出的设计空间涵盖了改进的生成建模、结构感知架构和表示学习,以及数据探索。我们的进展接近了更细粒度的监督,表明基于标记的多模态PLMs能够实现稳健的结构建模。有效的设计方法显著提高了结构生成多样性,并大幅提升我们6.5亿模型的折叠能力,RMSD从5.52降低到2.36,甚至优于30亿次基线,并与专门的折叠模型相当。