摘要
arXiv:2409.13989v1 公告类型: 交叉 摘要: 人们对大型语言模型(LLMs)在化学领域中的作用越来越感兴趣,这导致了对专门针对化学领域的LLMs基准测试的开发,以评估LLMs在各种类型和复杂度的化学任务中的表现。然而,现有的基准测试未能充分满足化学研究专业人员的特定需求。为此,我们提出了\textbf{\textit{ChemEval}},它提供了一个全面的评估框架,涵盖了广泛的化学领域任务。具体而言,ChemEval确定了化学中的4个关键递进层次,评估了LLMs在12个维度上的表现,涉及42个不同的化学任务,这些任务基于开源数据和化学专家精心设计的数据,确保任务具有实际价值并能有效评估LLMs的能力。在实验中,我们在零样本和少样本学习情境下对12个主流LLMs进行了评估,其中包括精心挑选的示范示例和精心设计的提示。结果显示,尽管像GPT-4和Claude-3.5这样的通用LLMs在文献理解和指令遵循方面表现出色,但在需要高级化学知识的任务中表现不佳。相反,专门的LLMs在化学能力方面有所增强,但在文学理解方面有所减弱。这表明,当处理化学领域的复杂任务时,LLMs具有显著的提升潜力。我们相信,我们的工作将有助于探索其在推动化学进步方面的潜力。我们的基准测试和分析将在{\color{blue} \url{https://github.com/USTC-StarTeam/ChemEval}}上提供。