摘要
arXiv:2502.07527v1 宣布类型: 新
摘要:基础模型已经彻底改变了自然语言处理和人工智能,显著增强了机器对人类语言的理解和生成能力。受到这些基础模型成功的启发,研究者们开发了适用于各个科学领域的基础模型,包括小型分子、材料、蛋白质、DNA和RNA。然而,这些模型通常是在孤立状态下训练的,缺乏在不同科学领域之间整合的能力。认识到这些领域内的实体都可以表示为序列,共同构成了“自然界的语言”,我们介绍了一种基于序列的基础科学模型——Nature Language Model(简称NatureLM),旨在用于科学发现。NatureLM 经过跨多个科学领域的数据预训练,提供了一个统一、多功能的模型,能够实现多种应用,包括:(i) 使用文本指令生成和优化小分子、蛋白质、RNA和材料;(ii) 不同领域的生成/设计,例如蛋白质到分子和蛋白质到RNA的生成;以及(iii) 在SMILES到IUPAC转换和USPTO-50k的逆合成反应等任务上实现最先进的性能。NatureLM 提供了一种有前景的通用方法,适用于各种科学任务,包括药物发现(先导化合物生成/优化、ADMET优化、合成)、新型材料设计以及治疗性蛋白质或核苷酸的开发。我们开发了不同规模的NatureLM模型(1亿、8亿和46.7亿参数),并观察到随着模型规模的增加,性能有明显的提升。