LLM2D

摘要

arXiv:2502.07527v1 宣布类型: 新摘要：基础模型已经彻底改变了自然语言处理和人工智能，显著增强了机器对人类语言的理解和生成能力。受到这些基础模型成功的启发，研究者们开发了适用于各个科学领域的基础模型，包括小型分子、材料、蛋白质、DNA和RNA。然而，这些模型通常是在孤立状态下训练的，缺乏在不同科学领域之间整合的能力。认识到这些领域内的实体都可以表示为序列，共同构成了“自然界的语言”，我们介绍了一种基于序列的基础科学模型——Nature Language Model（简称NatureLM），旨在用于科学发现。NatureLM 经过跨多个科学领域的数据预训练，提供了一个统一、多功能的模型，能够实现多种应用，包括：(i) 使用文本指令生成和优化小分子、蛋白质、RNA和材料；(ii) 不同领域的生成/设计，例如蛋白质到分子和蛋白质到RNA的生成；以及(iii) 在SMILES到IUPAC转换和USPTO-50k的逆合成反应等任务上实现最先进的性能。NatureLM 提供了一种有前景的通用方法，适用于各种科学任务，包括药物发现（先导化合物生成/优化、ADMET优化、合成）、新型材料设计以及治疗性蛋白质或核苷酸的开发。我们开发了不同规模的NatureLM模型（1亿、8亿和46.7亿参数），并观察到随着模型规模的增加，性能有明显的提升。