摘要
arXiv:2505.01563v1 宣告类型: 新
摘要: 在数学和GSM8K等学术基准测试上,大型语言模型(LLM)性能的最近改进使得它们作为独立导师和人类学习模拟器的应用更加大胆。然而,这些新应用需要更多的不仅是最终解决方案生成的评估。我们提出了TutorGym,以更直接的方式评估这些应用。TutorGym是用于在已通过教室研究测试和改进的现有智能辅导系统(ITS)中测试人工智能(AI)代理的标准接口,包括认知辅导系统(CTAT)、学徒辅导系统和OATutors。TutorGym不仅仅是一个简单的问题解决方案基准,它将AI代理置于现有的ITSs的交互界面中。在问题解决的每一步,AI代理被要求说明作为导师或学习者他们会做什么。作为导师,AI代理被提示提供辅导支持——例如生成示例、提示和步骤级正确性反馈——这些支持可以直接与现有ITSs提供的自适应逐步支持进行评估。作为学生,代理直接从ITS教学中学习,他们的错误和学习轨迹可以与学生数据进行比较。TutorGym为在不断增长的学习环境中训练和评估各种类型的AI代理奠定了共同框架,包括大型语言模型、学习计算模型和强化学习代理。目前,TutorGym包括223个不同的辅导领域。在初步评估中,我们发现当前的LLM在辅导方面表现较差——没有一个能在标记错误行为方面超过偶然性和在训练为学生并利用上下文学习时能够生成非常接近人类的学习曲线时,下一步的行为正确率仅为约52%-70%。