LLM2D

摘要

尽管已经提出了各种模型和计算工具用于分析分子的结构和性质，但生成符合所有所需结构和性质的分子仍然是一个挑战。本文介绍了一个多约束分子生成大型语言模型TSMMG，它类似于学生，从各种小型模型和工具（即“老师”）中整合知识。为了训练TSMMG，我们通过从这些“老师”那里提取分子知识构建了一个大型的文本-分子对集合，使其能够通过各种文本提示生成符合描述的新分子。实验表明，TSMMG在生成满足复杂、自然语言描述的性质要求的分子方面表现出色，涵盖了两个、三个和四个约束任务，平均分子有效性超过99%，成功率分别为82.58%、68.03%和67.48%。该模型还通过零样本测试展现出适应性，创造出满足以前从未遇到过的性质组合的分子。它可以理解具有各种语言风格的文本输入，超越了概述提示的限制，这已通过实证验证得到确认。此外，TSMMG的知识蒸馏功能有助于小型模型的持续改进，而其创新的数据集构建方法有效地解决了数据稀缺和质量问题，这使得TSMMG成为药物发现和材料科学领域中一个很有前途的工具。