摘要
近年来,利用大型语言模型 (LLM) 来辅助科学发现的兴趣激增。然而,大多数 LLM 仅关注一般科学,缺乏领域特定知识,例如化学分子和氨基酸序列。为了弥合这些差距,我们引入了 SciDFM,这是一种专家混合 LLM,它从头开始训练,能够进行大学水平的科学推理并理解分子和氨基酸序列。我们收集了一个大型训练语料库,其中包含来自不同学科的众多科学论文和书籍,以及来自领域特定数据库的数据。我们进一步对预训练模型进行微调,以改进其在下游基准上的性能。从实验结果来看,SciDFM 在 SciEval 和 SciQ 等通用科学基准上取得了优异的性能,并且在同等规模的模型中,它在领域特定基准上达到了最先进的性能。我们进一步分析了专家层,并表明专家选择的結果会随不同学科的数据而异。为了惠及更广泛的研究界,我们在 https://huggingface.co/OpenDFM/SciDFM-MoE-A5.6B-v1.0 开源了 SciDFM。