LLM2D
理解数据集难度与$\mathcal{V}$可利用信息
Understanding Dataset Difficulty with $\mathcal{V}$-Usable Information
作者: Kawin Ethayarajh, Yejin Choi, Swabha Swayamdipta
发布日期: 4/29/2025
arXiv ID: oai:arXiv.org:2110.08420v3

摘要

arXiv:2110.08420v3 宣告类型: replace-cross 摘要: 估计数据集的难度通常涉及将最先进的模型与人类进行比较;性能差距越大,数据集被认为就越难。然而,这种比较对于理解给定分布中的每个实例的难度有多大,或是什么特征使得给定模型难以处理该数据集知之甚少。为了解决这些问题,我们将与模型 \(\mathcal{V}\) 相关的数据集难度框架化为缺乏 \(\mathcal{V}\)-可利用信息 (Xu et al., 2019) 的情况,其中数值越低表示对 \(\mathcal{V}\) 越难的数据集。我们进一步引入点wise \(\mathcal{V}\)-信息 (PVI) 用于衡量单个实例相对于给定分布的难度。虽然标准评估指标通常仅比较同一数据集的不同模型,但 \(\mathcal{V}\)-可利用信息和 PVI 允许进行逆向比较:对于给定的模型 \(\mathcal{V}\),我们可以比较不同数据集,以及同一数据集的不同实例/切片。此外,我们的框架允许通过输入变换对不同输入特征的可解释性进行分析,我们使用这一方法发现广泛使用的NLP基准测试中的注释错误。