摘要
arXiv:2502.06846v1 类型: cross
摘要:蛋白质在生物体中发挥着关键作用,但理解其功能却面临着重大挑战,包括基于分类的方法灵活性有限、难以充分利用空间结构信息,以及缺乏系统评价指标来评估蛋白质问答系统。为了解决这些限制,我们提出了Prot2Chat,这是一种新颖的框架,它通过统一模块将多模态蛋白质表示与自然语言整合,从而实现大型语言模型(LLM)驱动的答案生成。我们的模型结合了一个修改后的ProteinMPNN编码器,该编码器以统一的方式编码蛋白质序列和结构信息,一个蛋白质-文本适配器,带有交叉注意力机制,以及一个LLaMA3解码器。为了优化训练效率,我们在编码器上冻结权重并使用LoRA技术对解码器进行训练。我们在这两个数据集上进行了实验,自动评估指标和专家评价都表明我们模型的优越性能。此外,零样本预测结果突显了其强大的泛化能力。该框架为将蛋白质领域知识与自然语言理解相结合提供了一个有前景的解决方案,为蛋白质相关研究的变革性进步铺平了道路。