摘要
在线教育平台通过提供动态的数字基础设施,显著改变了教育资源的传播方式。随着这种转变的进一步加强,大型语言模型 (LLMs) 的出现提升了这些平台的智能水平。然而,当前的学术基准对现实世界行业场景的指导意义有限。这种局限性源于教育应用需要的不止是简单的测试题答案。为了弥合这一差距,我们引入了 CJEval,一个基于中国初中考试评估的基准。CJEval 包含 26,136 个样本,涵盖十个学科的四个应用级教育任务。这些样本不仅包括问题和答案,还包括详细的标注,例如问题类型、难度级别、知识概念和答案解释。通过利用这个基准,我们评估了 LLMs 的潜在应用,并通过在各种教育任务上进行微调,对它们的性能进行了全面分析。大量的实验和讨论突出了将 LLMs 应用于教育领域的机遇和挑战。