摘要
arXiv:2502.13311v1 交叉领域类型:cross
摘要:由大规模语言模型(LLMs)驱动的智能辅导代理在语言学习和科学教育等领域提供了个性化的指导。然而,它们在引导用户解决复杂现实任务方面的能力仍鲜有探索。为解决这一局限,本文专注于编码辅导这一具有挑战性的问题,要求辅导者主动引导学生完成预定义的编码任务。我们提出了一种新的代理工作流——Trace-and-Verify(TRAVER),该工作流结合了知识追踪以估算学生的知识状态,并通过逐步验证确保有效引导以完成任务。我们引入了DICT,这是一种自动评估协议,通过受控的学生模拟和代码生成测试全面评估辅导代理。广泛的实验揭示了编码辅导的挑战,并展示了TRAVER实现了显著更高的成功率。虽然在本文中我们以代码辅导为例,但我们的结果和发现可以扩展到其他任务,为各类任务改进辅导代理提供了宝贵的见解。