LLM2D

摘要

基于参考的指标，例如 BLEU 和 BERTScore，被广泛用于评估问题生成 (QG)。在这项研究中，我们在 SQuAD 和 HotpotQA 等 QG 基准测试中发现，使用人工编写的参考并不能保证基于参考的指标的有效性。大多数 QG 基准测试只有一个参考；我们复制了标注过程并收集了另一个参考。一个好的指标应该对人工验证的问题的评分不低于生成的提问。然而，基于参考的指标在我们新收集的参考上的结果证明了这些指标本身存在问题。我们提出了一种无参考指标，该指标由自然性、可回答性和复杂性等多维标准组成，并利用大型语言模型。这些标准不受单个参考问题的句法或语义的限制，并且该指标不需要一组多样化的参考。实验表明，我们的指标能够准确地区分高质量问题和有缺陷的问题，并且在与人工判断的一致性方面达到了最先进的水平。