LLM2D
LLMs在智能辅导系统中构建逻辑问题证明和提示的潜力与局限性
The Promise and Limits of LLMs in Constructing Proofs and Hints for Logic Problems in Intelligent Tutoring Systems
作者: Sutapa Dey Tithi, Arun Kumar Ramesh, Clara DiMarco, Xiaoyi Tian, Nazia Alam, Kimia Fazeli, Tiffany Barnes
发布日期: 5/9/2025
arXiv ID: oai:arXiv.org:2505.04736v1

摘要

arXiv:2505.04736v1 通知类型: 新 摘要:智能辅导系统在教授形式命题逻辑证明方面表现出了有效性,但它们依赖于基于模板的解释,限制了它们提供个性化学生反馈的能力。虽然大规模语言模型(LLMs)在动态反馈生成方面表现出前景,但也可能产生 hallucinations 或教学上不恰当的解释。我们评估了 LLMs 在构建多步符号逻辑证明过程中的逐步准确性,比较了六种提示技术在四款最先进的 LLMs 上解决 358 个命题逻辑问题的表现。结果显示,DeepSeek-V3 在逐步证明构建方面表现最好,准确性为 84.4%,尤其在简单的规则方面表现尤为突出。我们进一步使用表现最好的 LLM 生成了 1,050 个独特的学生问题解决状态的解释性提示,并在 20% 的样本中根据 LLM 评分器和人类专家对 4 个标准的评价进行了评估。我们的分析发现,LLM 生成的提示整体准确率为 75%,并在一致性和清晰度方面受到了人类评估者的高度评价,但在解释提示为何提供以及其更大的上下文方面表现不佳。我们的结果表明,LLMs 可以用于增强具有逻辑辅导提示的辅导系统,但需要进行额外的修改以确保准确性和教学适宜性。