LLM2D
CL-MFAP:一种基于对比学习的多模态基础模型,用于分子性质预测和抗生素筛选
CL-MFAP: A Contrastive Learning-Based Multimodal Foundation Model for Molecular Property Prediction and Antibiotic Screening
作者: Gen Zhou, Sugitha Janarthanan, Yutong Lu, Pingzhao Hu
发布日期: 2/18/2025
arXiv ID: oai:arXiv.org:2502.11001v1

摘要

arXiv:2502.11001v1 宣传类型: cross 摘要:由于抗生素耐药性的上升,识别具有抗生素潜力的新化合物对于应对这一全球健康问题至关重要。然而,传统的药物开发方法成本高昂且效率低下。认识到需要更有效的解决方案,研究人员已转向机器学习技术以简化新型抗生素化合物的预测和开发过程。尽管基础模型在抗生素发现方面展示了潜力,但当前主流努力仍未充分利用多模态分子数据的全部潜力。最近的研究表明,使用多模态数据的对比学习框架在各种领域中表现出色。在此基础上,我们引入了CL-MFAP,这是一个基于对比学习(CL)的多模态基础(MF)模型,特别针对使用三种类型的分子数据发现具有潜在抗生素特征(AP)的小分子进行设计。该模型利用ChEMBL数据集中包含的160万种具有药物性质的生物活性分子,共同预训练了三个编码器:(1)一个带有旋转位置嵌入的基于变换器的编码器,用于处理SMILES字符串;(2)另一个基于变换器的编码器,结合了一种新的层次路由注意力机制,以处理分子图表示;以及(3)一个使用多层感知机的摩根指纹编码器,以实现对比学习的目的。CL-MFAP在抗生素特征预测中表现优于基线模型,有效地利用了不同的分子模态,并且在针对抗生素相关特性预测任务进行微调时展示了出色的领域特定性能。