LLM2D
化学语言模型链接器:通过模块化适配器融合文本和分子
Chemical Language Model Linker: blending text and molecules with modular adapters
作者: Yifan Deng, Spencer S. Ericksen, Anthony Gitter
发布日期: 4/17/2025
arXiv ID: oai:arXiv.org:2410.20182v2

摘要

arXiv:2410.20182v2 宣告类型:replace-cross 摘要:大型语言模型和多模态模型的发展使得从文本描述生成新颖分子这一诱人的想法成为了可能。生成模型将改变依赖于大规模化学筛选来发现具有所需性质的分子的范式,转向直接生成这些分子。然而,结合文本和分子的多模态模型通常是从头开始训练的,没有利用现有的高质量预训练模型。从头开始训练消耗更多的计算资源,限制了模型的扩展。相比之下,我们提出了一种基于轻量级适配器的策略,称为化学语言模型链接器(ChemLML)。ChemLML将两个单一领域模型融合在一起,在化学分子领域特有的嵌入空间中从文本描述中实现条件分子生成。通过训练相对少量的适配器参数,ChemLML可以为分子生成量身定制各种预训练文本模型。我们发现,ChemLML 内部使用的分子表示(SMILES 与 SELFIES)在条件分子生成性能上产生了强烈的影响。尽管 SMILES 往往更佳,但它并不能保证生成有效的分子。我们指出了使用整个 PubChem 分子数据库及其相关描述来评估分子生成存在的问题,并提供了一个过滤后的数据集用于生成测试集。为了展示 ChemLML 在实际中的应用,我们生成了候选的蛋白抑制剂,并通过对接评估其质量,同时也生成了候选的膜渗透分子。