LLM2D
基于师生大型语言模型的多约束分子生成
Instruction Multi-Constraint Molecular Generation Using a Teacher-Student Large Language Model
作者: Peng Zhou, Jianmin Wang, Chunyan Li, Zixu Wang, Yiping Liu, Siqi Sun, Jianxin Lin, Leyi Wei, Xibao Cai, Houtim Lai, Wei Liu, Longyue Wang, Yuansheng Liu, Xiangxiang Zeng
发布日期: 10/11/2024
arXiv ID: oai:arXiv.org:2403.13244v4

摘要

尽管已经提出了各种模型和计算工具用于分析分子的结构和性质,但生成符合所有所需结构和性质的分子仍然是一个挑战。本文介绍了一个多约束分子生成大型语言模型TSMMG,它类似于学生,从各种小型模型和工具(即“老师”)中整合知识。为了训练TSMMG,我们通过从这些“老师”那里提取分子知识构建了一个大型的文本-分子对集合,使其能够通过各种文本提示生成符合描述的新分子。实验表明,TSMMG在生成满足复杂、自然语言描述的性质要求的分子方面表现出色,涵盖了两个、三个和四个约束任务,平均分子有效性超过99%,成功率分别为82.58%、68.03%和67.48%。该模型还通过零样本测试展现出适应性,创造出满足以前从未遇到过的性质组合的分子。它可以理解具有各种语言风格的文本输入,超越了概述提示的限制,这已通过实证验证得到确认。此外,TSMMG的知识蒸馏功能有助于小型模型的持续改进,而其创新的数据集构建方法有效地解决了数据稀缺和质量问题,这使得TSMMG成为药物发现和材料科学领域中一个很有前途的工具。