LLM2D
NatureLM: deciphering the language of nature for scientific discovery -> NatureLM:揭示自然语言以促进科学发现
NatureLM: Deciphering the Language of Nature for Scientific Discovery
作者: Yingce Xia, Peiran Jin, Shufang Xie, Liang He, Chuan Cao, Renqian Luo, Guoqing Liu, Yue Wang, Zequn Liu, Yuan-Jyue Chen, Zekun Guo, Yeqi Bai, Pan Deng, Yaosen Min, Ziheng Lu, Hongxia Hao, Han Yang, Jielan Li, Chang Liu, Jia Zhang, Jianwei Zhu, Kehan Wu, Wei Zhang, Kaiyuan Gao, Qizhi Pei, Qian Wang, Xixian Liu, Yanting Li, Houtian Zhu, Yeqing Lu, Mingqian Ma, Zun Wang, Tian Xie, Krzysztof Maziarz, Marwin Segler, Zhao Yang, Zilong Chen, Yu Shi, Shuxin Zheng, Lijun Wu, Chen Hu, Peggy Dai, Tie-Yan Liu, Haiguang Liu, Tao Qin
发布日期: 2/12/2025
arXiv ID: oai:arXiv.org:2502.07527v1

摘要

arXiv:2502.07527v1 宣布类型: 新 摘要:基础模型已经彻底改变了自然语言处理和人工智能,显著增强了机器对人类语言的理解和生成能力。受到这些基础模型成功的启发,研究者们开发了适用于各个科学领域的基础模型,包括小型分子、材料、蛋白质、DNA和RNA。然而,这些模型通常是在孤立状态下训练的,缺乏在不同科学领域之间整合的能力。认识到这些领域内的实体都可以表示为序列,共同构成了“自然界的语言”,我们介绍了一种基于序列的基础科学模型——Nature Language Model(简称NatureLM),旨在用于科学发现。NatureLM 经过跨多个科学领域的数据预训练,提供了一个统一、多功能的模型,能够实现多种应用,包括:(i) 使用文本指令生成和优化小分子、蛋白质、RNA和材料;(ii) 不同领域的生成/设计,例如蛋白质到分子和蛋白质到RNA的生成;以及(iii) 在SMILES到IUPAC转换和USPTO-50k的逆合成反应等任务上实现最先进的性能。NatureLM 提供了一种有前景的通用方法,适用于各种科学任务,包括药物发现(先导化合物生成/优化、ADMET优化、合成)、新型材料设计以及治疗性蛋白质或核苷酸的开发。我们开发了不同规模的NatureLM模型(1亿、8亿和46.7亿参数),并观察到随着模型规模的增加,性能有明显的提升。