摘要
arXiv:2405.14108v5 宣告类型: replace-cross
摘要:配体结合对蛋白质结构及其体内功能的影响为现代生物医学研究和生物技术发展(如药物发现)提供了众多意义。尽管最近已经提出了几种用于蛋白质-配体对接的深度学习(DL)方法和基准,但到目前为止,还没有任何先前的研究系统地研究了最新的对接和结构预测方法在(1)使用预测的(apo)蛋白质结构进行对接(例如,适用于新蛋白质);(2)同时结合多个(辅因子)配体到给定靶点蛋白质(例如,用于酶设计);以及(3)没有事先了解结合口袋(例如,用于未知口袋的一般化)这一广泛适用的情境中的表现。为了使对接方法的实际应用能力有更深入的理解,我们引入了PoseBench,这是第一个全面的适用于广泛适用的蛋白质-配体对接的基准。PoseBench使研究人员能够严格且系统地评估使用Both Primary Ligand和Multi-ligand基准数据集对apo-to-holo蛋白质-配体对接和蛋白质-配体结构预测的DL方法进行评估,后者我们首次向DL社区引入。通过使用PoseBench,我们发现:(1)DL合折方法通常优于类似的传统对接和DL基线方法,但像AlphaFold 3这样的热门方法仍然受到新颖蛋白质序列的预测目标的挑战;(2)某些DL合折方法对输入多序列比对高度敏感,而其他方法则不然;(3)当预测新颖或多重配体蛋白质目标时,DL方法难以在结构准确性与化学特异性之间取得平衡。相关代码、数据、教程和基准结果可在https://github.com/BioinfoMachineLearning/PoseBench获取。