LLM2D
蛋白质GPT:多模态LLM蛋白质性质预测与结构理解
ProteinGPT: Multimodal LLM for Protein Property Prediction and Structure Understanding
作者: Yijia Xiao, Edward Sun, Yiqiao Jin, Qifan Wang, Wei Wang
发布日期: 4/21/2025
arXiv ID: oai:arXiv.org:2408.11363v2

摘要

arXiv:2408.11363v2 通告类型: 修改 摘要:理解生物过程、药物开发和生物技术进步需要对蛋白质结构和功能进行详细的分析,这是一个在传统蛋白质研究中本就复杂且耗时的任务。为简化这一过程,我们引入了ProteinGPT,这是一个最先进的多模态大型语言模型,用于蛋白质分析,使用户能够上传蛋白质序列和/或结构以进行全面分析和响应查询。ProteinGPT通过将蛋白质序列和结构编码器与线性投影层集成,确保精确的表示适应性,并利用大型语言模型(LLM)生成准确且上下文相关的响应。为了训练ProteinGPT,我们构建了一个包含132,092种蛋白质的大规模数据集,每种蛋白质都标记有20-30个属性标签和每种蛋白质5-10对问答对,并使用GPT-4o优化了指令调优过程。实验表明,ProteinGPT能够有效地对蛋白质相关问题生成信息性回答,在语义和词汇指标上取得了高表现,并且在理解和回应蛋白质相关查询方面显著优于基线模型和通用LLM。我们的代码和数据可在https://github.com/ProteinGPT/ProteinGPT获取。