LLM2D

摘要

arXiv:2409.12995v1 公告类型: 交叉摘要: 预测蛋白质-配体结合亲和力是计算机辅助药物设计的关键部分。然而，在低数据情况下，通用且高效的全球结合亲和力模型仍然难以捉摸。尽管模型架构不断演进，当前的基准测试并不适合探究3D结合亲和力模型的通用性。此外，如GNN等3D全局架构的性能尚未达到预期。为了研究这些问题，我们引入了一种新颖的PDBBind数据集划分方法，最大限度地减少了训练集和测试集之间的相似性泄漏，从而允许对各种模型架构进行公平且直接的比较。在此低相似性划分上，我们证明，在低数据情况下，3D全局模型通常优于蛋白质特异性局部模型。我们还展示了GNN的性能得益于三个新颖的贡献：通过量子力学数据进行监督预训练，通过小分子扩散进行无监督预训练，以及在输入图中显式建模氢原子。我们相信，这项工作引入了有前景的新方法，有望解锁GNN架构在结合亲和力建模中的潜力。