LLM2D

摘要

自动生成的提问经常存在表达不清或事实错误等问题，因此需要一个可靠且全面的评估方法来衡量其质量。人工评估在问句生成（QG）领域被广泛应用，并被视为自动指标的黄金标准。然而，目前缺乏统一的人工评估标准，这阻碍了对QG模型和自动指标的一致且可靠的评估。为了解决这个问题，我们提出了QGEval，这是一个多维度的问句生成评估基准，它从7个维度评估生成的提问和现有的自动指标：流畅性、清晰度、简洁性、相关性、一致性、可回答性和答案一致性。我们通过考察这些维度的相关性和区别来证明其合理性。通过使用QGEval对QG模型和自动指标进行一致的评估，我们发现：1）大多数QG模型在可回答性和答案一致性方面表现不佳；2）现有的指标在评估7个维度上的生成提问时，与人工判断不一致。我们期望这项工作能够促进QG技术及其评估的发展。