摘要
在线教育平台通过提供动态的数字基础设施,显著改变了教育资源的传播方式。随着这种转变的进一步加强,大型语言模型 (LLM) 的出现提升了这些平台的智能水平。然而,目前的学术基准对现实世界中的行业场景提供了有限的指导。这种限制的出现是因为教育应用不仅仅需要测试题的答案。为了弥合这一差距,我们引入了 CJEval,这是一个基于中国初中考试评估的基准。CJEval 包含 26,136 个样本,涵盖十个学科的四个应用级教育任务。这些样本不仅包括问题和答案,还包括详细的注释,例如问题类型、难度级别、知识概念和答案解释。通过利用这个基准,我们评估了 LLM 的潜在应用,并通过对各种教育任务进行微调,对其性能进行了全面分析。大量的实验和讨论突出了将 LLM 应用于教育领域的机遇和挑战。