LLM2D
LDMol:具有结构信息潜在空间的文本到分子扩散模型
LDMol: Text-to-Molecule Diffusion Model with Structurally Informative Latent Space
作者: Jinho Chang, Jong Chul Ye
发布日期: 10/4/2024
arXiv ID: oai:arXiv.org:2405.17829v2

摘要

随着扩散模型成为生成模型的先锋,许多研究人员提出了利用条件扩散模型进行分子生成的技术。然而,分子不可避免的离散性使得扩散模型难以将原始数据与自然语言等高度复杂的条件联系起来。为了解决这个问题,我们提出了一种名为 LDMol 的新型潜在扩散模型,用于文本条件下的分子生成。LDMol 包含一个分子自编码器,它可以生成可学习且结构信息丰富的特征空间,以及一个自然语言条件的潜在扩散模型。特别是,认识到多个 SMILES 符号可以表示同一个分子,我们采用了一种对比学习策略来提取能够识别分子结构独特特征的特征空间。LDMol 在文本到分子生成基准测试中优于现有基线,表明扩散模型在选择合适的潜在域的情况下,可能在文本数据生成方面优于自回归模型。此外,我们还表明 LDMol 可以应用于下游任务,例如分子到文本检索和文本引导的分子编辑,证明了它作为扩散模型的多功能性。