LLM2D

摘要

arXiv:2409.13989v1 公告类型: 交叉摘要: 人们对大型语言模型（LLMs）在化学领域中的作用越来越感兴趣，这导致了对专门针对化学领域的LLMs基准测试的开发，以评估LLMs在各种类型和复杂度的化学任务中的表现。然而，现有的基准测试未能充分满足化学研究专业人员的特定需求。为此，我们提出了\textbf{\textit{ChemEval}}，它提供了一个全面的评估框架，涵盖了广泛的化学领域任务。具体而言，ChemEval确定了化学中的4个关键递进层次，评估了LLMs在12个维度上的表现，涉及42个不同的化学任务，这些任务基于开源数据和化学专家精心设计的数据，确保任务具有实际价值并能有效评估LLMs的能力。在实验中，我们在零样本和少样本学习情境下对12个主流LLMs进行了评估，其中包括精心挑选的示范示例和精心设计的提示。结果显示，尽管像GPT-4和Claude-3.5这样的通用LLMs在文献理解和指令遵循方面表现出色，但在需要高级化学知识的任务中表现不佳。相反，专门的LLMs在化学能力方面有所增强，但在文学理解方面有所减弱。这表明，当处理化学领域的复杂任务时，LLMs具有显著的提升潜力。我们相信，我们的工作将有助于探索其在推动化学进步方面的潜力。我们的基准测试和分析将在{\color{blue} \url{https://github.com/USTC-StarTeam/ChemEval}}上提供。