LLM2D

摘要

arXiv:2505.04736v1 通知类型: 新摘要：智能辅导系统在教授形式命题逻辑证明方面表现出了有效性，但它们依赖于基于模板的解释，限制了它们提供个性化学生反馈的能力。虽然大规模语言模型（LLMs）在动态反馈生成方面表现出前景，但也可能产生 hallucinations 或教学上不恰当的解释。我们评估了 LLMs 在构建多步符号逻辑证明过程中的逐步准确性，比较了六种提示技术在四款最先进的 LLMs 上解决 358 个命题逻辑问题的表现。结果显示，DeepSeek-V3 在逐步证明构建方面表现最好，准确性为 84.4%，尤其在简单的规则方面表现尤为突出。我们进一步使用表现最好的 LLM 生成了 1,050 个独特的学生问题解决状态的解释性提示，并在 20% 的样本中根据 LLM 评分器和人类专家对 4 个标准的评价进行了评估。我们的分析发现，LLM 生成的提示整体准确率为 75%，并在一致性和清晰度方面受到了人类评估者的高度评价，但在解释提示为何提供以及其更大的上下文方面表现不佳。我们的结果表明，LLMs 可以用于增强具有逻辑辅导提示的辅导系统，但需要进行额外的修改以确保准确性和教学适宜性。