LLM2D

摘要

近年来，利用大型语言模型 (LLM) 来辅助科学发现的兴趣激增。然而，大多数 LLM 仅关注一般科学，缺乏领域特定知识，例如化学分子和氨基酸序列。为了弥合这些差距，我们引入了 SciDFM，这是一种专家混合 LLM，它从头开始训练，能够进行大学水平的科学推理并理解分子和氨基酸序列。我们收集了一个大型训练语料库，其中包含来自不同学科的众多科学论文和书籍，以及来自领域特定数据库的数据。我们进一步对预训练模型进行微调，以改进其在下游基准上的性能。从实验结果来看，SciDFM 在 SciEval 和 SciQ 等通用科学基准上取得了优异的性能，并且在同等规模的模型中，它在领域特定基准上达到了最先进的性能。我们进一步分析了专家层，并表明专家选择的結果会随不同学科的数据而异。为了惠及更广泛的研究界，我们在 https://huggingface.co/OpenDFM/SciDFM-MoE-A5.6B-v1.0 开源了 SciDFM。