LLM2D

摘要

arXiv:2504.13261v1 交叉公告类型摘要：目的：随着ChatGPT等大型语言模型（LLMs）的迅速涌现，它们对外语教育产生了重大影响，但其教学语法能力仍处于未评估状态。本文介绍了CPG-EVAL，这是首个专门设计用于在外语教学背景下评估LLMs教学语法知识的基准测试。方法：该基准测试包括五个任务，旨在评估语法识别、细微语法区别、类别区分以及对语言干扰的抵抗力。发现：较小规模的模型在单一语言实例任务中能够成功，但在多实例任务和干扰性实例的影响下表现不佳。较大的模型在抵抗干扰方面表现出更好的抵抗力，但仍存在显著的准确性提升空间。评估表明，需要更好的教学对齐和更严格的基准测试，以有效地指导LLMs在外语教育环境中的部署。价值：本研究提供了一个专门为汉语教学环境中外语教学语法能力系统评估设计的专业化、理论驱动的多层次基准框架。CPG-EVAL不仅为教育工作者、政策制定者和模型开发人员提供了关于当前AI在教育环境中的能力的实证见解，还为未来不断提高模型对齐、增强教育适用性和确保关于LLMs在外语教学中集成的知情决策的研究奠定了基础。