LLM2D

摘要

arXiv:2504.04770v1 交叉类型摘要：蛋白质表征学习对于众多生物学任务至关重要。近年来，基于大规模蛋白质序列进行预训练的大规模变压器蛋白质语言模型（pLMs）在基于序列的任务中取得了显著的成功。然而，pLMs 缺乏结构信息。相反，用于利用三维结构信息的图神经网络（GNNs）在蛋白质相关预测任务中表现出色，但其效果往往受到有标签结构数据稀缺性的限制。意识到序列表示和结构表示是同一蛋白质实体的互补视角，我们提出了一种多模态双向分层融合框架，以有效融合这些模态。我们的框架采用注意力和门控机制，使基于pLMs生成的序列表示与基于GNN提取的结构特征之间能够有效地交互，从而改善了神经网络各层间的信息交换和增强。基于该框架，我们进一步引入了带有门控的局部双向分层融合方法和带有多头自我注意力的全局双向分层融合方法。通过对多种多样的蛋白质相关任务进行广泛实验，我们的方法在多种蛋白质表征学习基准上的一系列强基线方法和现有融合技术中表现出一致的改进，包括react（酶/EC分类）、模型质量评估（MQA）、蛋白质-配体结合亲和力预测（LBA）、蛋白质-蛋白质结合位点预测（PPBS）和B细胞表位预测（BCEs）。我们的方法在多模态蛋白质表征学习中建立了新的最先进水平，并强调了BIHIERARCHICAL FUSION在连接序列和结构模态方面的有效性。