LLM2D

摘要

在线教育平台通过提供动态的数字基础设施，显著改变了教育资源的传播方式。随着这种转变的进一步加强，大型语言模型 (LLM) 的出现提升了这些平台的智能水平。然而，目前的学术基准对现实世界中的行业场景提供了有限的指导。这种限制的出现是因为教育应用不仅仅需要测试题的答案。为了弥合这一差距，我们引入了 CJEval，这是一个基于中国初中考试评估的基准。CJEval 包含 26,136 个样本，涵盖十个学科的四个应用级教育任务。这些样本不仅包括问题和答案，还包括详细的注释，例如问题类型、难度级别、知识概念和答案解释。通过利用这个基准，我们评估了 LLM 的潜在应用，并通过对各种教育任务进行微调，对其性能进行了全面分析。大量的实验和讨论突出了将 LLM 应用于教育领域的机遇和挑战。