摘要
arXiv:2410.12893v3 通告类型: replace-cross
摘要: 自动问题生成是一个关键任务,涉及通过考虑参与度、教育价值和激发批判性思维的能力来评估问题的质量。这些方面需要人类级别的理解和判断,而当前的自动化系统缺乏这种能力。然而,对于由自动化问题生成系统生成的问题的大型样本进行人工评估成本高且不切实际。因此,我们提出了一种名为 MIRROR(多大语言模型迭代审查与响应以优化评分)的新型系统,该系统利用大语言模型(LLMs)来自动化评估由自动化问题生成系统生成的问题的过程。我们实验了几种最先进的大语言模型,如GPT-4、Gemini和Llama2-70b。我们观察到,使用基于反馈的方法MIRROR来评估问题时,人工评价指标的得分(包括相关性、适宜性、新颖性、复杂性和文法正确性)有所提高,倾向于接近人类基线得分。此外,我们观察到在使用我们提出基于反馈的方法MIRROR的情况下,GPT-4与人类专家之间的皮尔逊相关系数相比直接提示评分时有所提高。误差分析显示,我们提出的方法MIRROR在显著提高相关性和适宜性方面发挥了重要作用。