LLM2D

摘要

多跨度问答 (MSQA) 要求模型从给定文本中提取一个或多个答案跨度来回答问题。先前的工作主要集中于设计特定方法或应用启发式策略来鼓励模型预测更多正确的答案。然而，这些模型是在黄金答案上进行训练的，没有考虑错误预测。通过统计分析，我们观察到能力更强的模型与其他模型相比，并不预测更少的错误答案。在这项工作中，我们提出了一个答案-分类-校正 (ACC) 框架，它采用了一种后处理策略来处理错误预测。具体来说，ACC 框架首先引入一个分类器，将预测结果分为三种类型并排除“错误预测”，然后引入一个校正器来修改“部分正确预测”。在几个 MSQA 数据集上的实验表明，ACC 框架显著提高了精确匹配 (EM) 分数，进一步的分析表明，ACC 框架有效地减少了错误预测的数量，提高了预测质量。