LLM2D

摘要

arXiv:2410.19704v3 宣告类型: replace-cross 摘要：基础模型应用于生物分子空间有望加速药物发现。分子表示对于构建此类模型至关重要。前期工作通常侧重于单一的分子表示或视角。在这里，我们开发了一种多视图基础模型方法，该方法将图形、图像和文本的分子视图整合起来。单一视图的基础模型分别在多达2000万分子的数据集上进行预训练，然后组合生成综合表示。我们的多视图模型在18项不同任务上进行了验证，涵盖了配体-蛋白质结合、分子溶解性、代谢和毒性。我们展示了多视图模型的稳健性能，并且能够平衡特定视图的强项和弱项。然后，我们应用该模型对大型（超过100个靶标）G蛋白耦合受体（GPCRs）的化合物进行筛选。从这一靶标库中，我们识别出33个与阿尔茨海默病相关的靶标。在这一子集中，我们利用我们的模型识别强结合物，并通过基于结构的建模和关键结合模式的识别进行了验证。