LLM2D

摘要

近年来，蛋白质基础模型的开发蓬勃发展，显著提升了蛋白质预测和生成任务的性能，涵盖从 3D 结构预测和蛋白质设计到构象动力学等方面。然而，由于缺乏统一的评估框架，这些模型的能力和局限性仍未得到充分理解。为了填补这一空白，我们引入了 ProteinBench，这是一个旨在提高蛋白质基础模型透明度的整体评估框架。我们的方法包含三个关键组成部分：（i）基于不同蛋白质模态之间关系的蛋白质领域主要挑战的分类学任务分类；（ii）一种多指标评估方法，从四个关键维度评估性能：质量、新颖性、多样性和鲁棒性；（iii）来自各种用户目标的深入分析，提供模型性能的整体视图。我们对蛋白质基础模型的全面评估揭示了几个关键发现，阐明了它们当前的能力和局限性。为了促进透明度并推动进一步研究，我们发布了评估数据集、代码和公开排行榜，供进一步分析和通用模块化工具包使用。我们希望 ProteinBench 成为一个活生生的基准，为建立蛋白质基础模型的标准化、深入评估框架奠定基础，推动其发展和应用，同时促进该领域内的合作。