LLM2D

摘要

问答 (QA) 只有在我们知道答案是否正确的情况下才能取得进展，但当前的答案正确性 (AC) 指标难以处理来自大型语言模型 (LLMs) 的冗长、自由格式的答案。当前的短格式 QA 评估存在两个挑战：缺乏多样化的评估数据风格以及过度依赖昂贵且缓慢的 LLMs。基于 LLMs 的评分者与人类的关联度更高，但这项昂贵的任务只在有限的 QA 数据集上进行了测试。我们通过提供从 Trivia 社区借鉴的机器 QA 评估的评分标准和数据集来纠正这些问题。我们还提出了一种高效且可解释的 QA 评估，该评估比精确匹配和神经方法 (BERTScore) 更稳定。