LLM2D
QGEval:多维度问句生成评估基准
QGEval: Benchmarking Multi-dimensional Evaluation for Question Generation
作者: Weiping Fu, Bifan Wei, Jianxiang Hu, Zhongmin Cai, Jun Liu
发布日期: 10/11/2024
arXiv ID: oai:arXiv.org:2406.05707v2

摘要

自动生成的提问经常存在表达不清或事实错误等问题,因此需要一个可靠且全面的评估方法来衡量其质量。人工评估在问句生成(QG)领域被广泛应用,并被视为自动指标的黄金标准。然而,目前缺乏统一的人工评估标准,这阻碍了对QG模型和自动指标的一致且可靠的评估。为了解决这个问题,我们提出了QGEval,这是一个多维度的问句生成评估基准,它从7个维度评估生成的提问和现有的自动指标:流畅性、清晰度、简洁性、相关性、一致性、可回答性和答案一致性。我们通过考察这些维度的相关性和区别来证明其合理性。通过使用QGEval对QG模型和自动指标进行一致的评估,我们发现:1)大多数QG模型在可回答性和答案一致性方面表现不佳;2)现有的指标在评估7个维度上的生成提问时,与人工判断不一致。我们期望这项工作能够促进QG技术及其评估的发展。