LLM2D
FineMolTex:面向细粒度分子图文预训练
FineMolTex: Towards Fine-grained Molecular Graph-Text Pre-training
作者: Yibo Li, Yuan Fang, Mengmei Zhang, Chuan Shi
发布日期: 10/10/2024
arXiv ID: oai:arXiv.org:2409.14106v2

摘要

理解分子结构和相关知识对于科学研究至关重要。最近的研究将分子图与其文本描述相结合,以增强分子表示学习。然而,这些研究关注的是整个分子图,而忽略了频繁出现的子图(即基序),而基序对于确定分子特性至关重要。缺乏这种细粒度的知识,这些模型难以泛化到未见过的分子和需要基序级别洞察力的任务。为了弥合这一差距,我们提出了FineMolTex,这是一个新颖的细粒度分子图-文本预训练框架,用于联合学习粗粒度的分子级知识和细粒度的基序级知识。具体来说,FineMolTex包含两个预训练任务:一个用于粗粒度匹配的对比对齐任务和一个用于细粒度匹配的掩码多模态建模任务。特别是后者预测被掩盖的基序和单词的标签,利用彼此的见解,从而使FineMolTex能够理解基序和单词之间的细粒度匹配。最后,我们在三个下游任务中进行了广泛的实验,在基于文本的分子编辑任务中实现了高达230%的改进。此外,我们的案例研究表明,FineMolTex成功地捕获了细粒度的知识,可能为药物发现和催化剂设计提供有价值的见解。