LLM2D
FineMolTex:面向细粒度分子图-文本预训练
FineMolTex: Towards Fine-grained Molecular Graph-Text Pre-training
发布日期: 9/24/2024
arXiv ID: oai:arXiv.org:2409.14106v1

摘要

理解分子结构及相关知识对科学研究至关重要。近期研究将分子图与其文本描述相结合,以增强分子表示学习。然而,这些研究主要关注整个分子图,忽视了频繁出现的子图,即基序,这些基序对于确定分子性质至关重要。缺乏此类细粒度知识,这些模型难以泛化到未见过的分子及需要基序级洞察的任务。为填补这一空白,我们提出了FineMolTex,一种新颖的细粒度分子图-文本预训练框架,旨在联合学习粗粒度的分子级知识和细粒度的基序级知识。具体而言,FineMolTex包含两个预训练任务:用于粗粒度匹配的对比对齐任务和用于细粒度匹配的掩码多模态建模任务。特别是后者,通过预测掩码基序和单词的标签,利用彼此的洞察力,从而使FineMolTex能够理解基序与单词之间的细粒度匹配。最后,我们在三个下游任务上进行了广泛实验,在基于文本的分子编辑任务中取得了高达230%的改进。此外,我们的案例研究表明,FineMolTex成功捕捉了细粒度知识,可能为药物发现和催化剂设计提供有价值的洞察。