LLM2D

摘要

学习绩效数据描述了自适应学习中（如智能辅导系统 (ITS)）的正确和错误答案或问题解决尝试。由于自适应项目选择，学习绩效数据在大多数现实世界应用中往往高度稀疏（80% \(\sim\) 90% 的观测缺失）。这种数据稀疏性给使用学习者模型来有效预测未来绩效和探索关于学习的新假设带来了挑战。本文提出了一种系统框架来增强学习者数据，以解决学习绩效数据中的数据稀疏性问题。首先，学习绩效被表示为学习者问题、答案和尝试的三维张量，捕捉学习过程中的纵向知识状态。其次，采用张量分解方法来填补收集到的学习者数据稀疏张量中的缺失值，从而将填补建立在知识追踪任务的基础上，该任务根据真实观测来预测缺失的绩效值。第三，使用一个生成学习模式的模块。本研究对比了两种形式的生成式人工智能 (AI)，包括生成对抗网络 (GAN) 和生成预训练转换器 (GPT)，以生成与不同学习者数据集群相关联的数据。我们在为成人阅读理解 (ARC) 开发的 AutoTutor 课程中对一个成人扫盲数据集进行了测试。我们发现：（1）与没有数据增强的其他知识追踪技术相比，张量分解提高了追踪和预测知识掌握的性能，显示出该填补方法具有更高的相对保真度；（2）基于不同模拟样本大小的散度评估，与 GPT 相比，基于 GAN 的模拟显示出更高的整体稳定性和更少的统计偏差。