LLM2D

摘要

arXiv:2110.08420v3 宣告类型: replace-cross 摘要: 估计数据集的难度通常涉及将最先进的模型与人类进行比较；性能差距越大，数据集被认为就越难。然而，这种比较对于理解给定分布中的每个实例的难度有多大，或是什么特征使得给定模型难以处理该数据集知之甚少。为了解决这些问题，我们将与模型 \(\mathcal{V}\) 相关的数据集难度框架化为缺乏 \(\mathcal{V}\)-可利用信息 (Xu et al., 2019) 的情况，其中数值越低表示对 \(\mathcal{V}\) 越难的数据集。我们进一步引入点wise \(\mathcal{V}\)-信息 (PVI) 用于衡量单个实例相对于给定分布的难度。虽然标准评估指标通常仅比较同一数据集的不同模型，但 \(\mathcal{V}\)-可利用信息和 PVI 允许进行逆向比较：对于给定的模型 \(\mathcal{V}\)，我们可以比较不同数据集，以及同一数据集的不同实例/切片。此外，我们的框架允许通过输入变换对不同输入特征的可解释性进行分析，我们使用这一方法发现广泛使用的NLP基准测试中的注释错误。