LLM2D
SciDFM:一种基于专家混合的大型语言模型,用于科学领域
SciDFM: A Large Language Model with Mixture-of-Experts for Science
作者: Liangtai Sun, Danyu Luo, Da Ma, Zihan Zhao, Baocai Chen, Zhennan Shen, Su Zhu, Lu Chen, Xin Chen, Kai Yu
发布日期: 9/30/2024
arXiv ID: oai:arXiv.org:2409.18412v1

摘要

近年来,利用大型语言模型 (LLM) 来辅助科学发现的兴趣激增。然而,大多数 LLM 仅关注一般科学,缺乏领域特定知识,例如化学分子和氨基酸序列。为了弥合这些差距,我们引入了 SciDFM,这是一种专家混合 LLM,它从头开始训练,能够进行大学水平的科学推理并理解分子和氨基酸序列。我们收集了一个大型训练语料库,其中包含来自不同学科的众多科学论文和书籍,以及来自领域特定数据库的数据。我们进一步对预训练模型进行微调,以改进其在下游基准上的性能。从实验结果来看,SciDFM 在 SciEval 和 SciQ 等通用科学基准上取得了优异的性能,并且在同等规模的模型中,它在领域特定基准上达到了最先进的性能。我们进一步分析了专家层,并表明专家选择的結果会随不同学科的数据而异。为了惠及更广泛的研究界,我们在 https://huggingface.co/OpenDFM/SciDFM-MoE-A5.6B-v1.0 开源了 SciDFM。