LLM2D
PEDANTS:廉价但有效的答案等价性
PEDANTS: Cheap But Effective Answer Equivalence
作者: Zongxia Li, Ishani Mondal, Yijun Liang, Huy Nghiem, Jordan Lee Boyd-Graber
发布日期: 10/11/2024
arXiv ID: oai:arXiv.org:2402.11161v4

摘要

问答 (QA) 只有在我们知道答案是否正确的情况下才能取得进展,但当前的答案正确性 (AC) 指标难以处理来自大型语言模型 (LLMs) 的冗长、自由格式的答案。当前的短格式 QA 评估存在两个挑战:缺乏多样化的评估数据风格以及过度依赖昂贵且缓慢的 LLMs。基于 LLMs 的评分者与人类的关联度更高,但这项昂贵的任务只在有限的 QA 数据集上进行了测试。我们通过提供从 Trivia 社区借鉴的机器 QA 评估的评分标准和数据集来纠正这些问题。我们还提出了一种高效且可解释的 QA 评估,该评估比精确匹配和神经方法 (BERTScore) 更稳定。