LLM2D
提升低数据条件下三维结合亲和力模型的泛化能力
Improving generalisability of 3D binding affinity models in low data regimes
发布日期: 9/23/2024
arXiv ID: oai:arXiv.org:2409.12995v1

摘要

arXiv:2409.12995v1 公告类型: 交叉 摘要: 预测蛋白质-配体结合亲和力是计算机辅助药物设计的关键部分。然而,在低数据情况下,通用且高效的全球结合亲和力模型仍然难以捉摸。尽管模型架构不断演进,当前的基准测试并不适合探究3D结合亲和力模型的通用性。此外,如GNN等3D全局架构的性能尚未达到预期。为了研究这些问题,我们引入了一种新颖的PDBBind数据集划分方法,最大限度地减少了训练集和测试集之间的相似性泄漏,从而允许对各种模型架构进行公平且直接的比较。在此低相似性划分上,我们证明,在低数据情况下,3D全局模型通常优于蛋白质特异性局部模型。我们还展示了GNN的性能得益于三个新颖的贡献:通过量子力学数据进行监督预训练,通过小分子扩散进行无监督预训练,以及在输入图中显式建模氢原子。我们相信,这项工作引入了有前景的新方法,有望解锁GNN架构在结合亲和力建模中的潜力。