摘要
arXiv:2410.19704v3 宣告类型: replace-cross
摘要:基础模型应用于生物分子空间有望加速药物发现。分子表示对于构建此类模型至关重要。前期工作通常侧重于单一的分子表示或视角。在这里,我们开发了一种多视图基础模型方法,该方法将图形、图像和文本的分子视图整合起来。单一视图的基础模型分别在多达2000万分子的数据集上进行预训练,然后组合生成综合表示。我们的多视图模型在18项不同任务上进行了验证,涵盖了配体-蛋白质结合、分子溶解性、代谢和毒性。我们展示了多视图模型的稳健性能,并且能够平衡特定视图的强项和弱项。然后,我们应用该模型对大型(超过100个靶标)G蛋白耦合受体(GPCRs)的化合物进行筛选。从这一靶标库中,我们识别出33个与阿尔茨海默病相关的靶标。在这一子集中,我们利用我们的模型识别强结合物,并通过基于结构的建模和关键结合模式的识别进行了验证。