LLM2D

摘要

arXiv:2504.05693v1 类型: cross 摘要：自动评估问题质量对于教育工作者至关重要，因为它可以节省时间、确保一致性并为改进教学材料提供即时反馈。我们提出了一种名为STRIVE（结构化思考和完善以提高验证问题估计）的新方法，利用一系列大型语言模型（LLMs）进行自动问题评估。该方法旨在提高问题质量评估的准确性和深度，最终支持多样化的学习者并提升教育实践。该方法通过生成多个基于所提供问题的优点和缺点的评估来自动估计问题质量，然后选择由LLM生成的最佳解决方案。然后通过与另一个LLM进行迭代的审查和响应，直到评估指标值收敛，从而改进该过程。这种复杂的评估问题质量的方法通过自动化问题质量评估任务来提高对问题质量的估计。相关性分数显示，使用此提议的方法有助于与基线方法相比提高与人类判断的相关性。误差分析表明，通过使用STRIVE，相关度和适宜性等指标相对于人类判断显著提高。