LLM2D
使用SMART筛选基准数据集提高模型评估
Improving Model Evaluation using SMART Filtering of Benchmark Datasets
作者: Vipul Gupta, Candace Ross, David Pantoja, Rebecca J. Passonneau, Megan Ung, Adina Williams
发布日期: 2/12/2025
arXiv ID: oai:arXiv.org:2410.20245v2

摘要

arXiv:2410.20245v2 评价类型: replace-cross 摘要:今天,自然语言处理(NLP)面临的一个最具挑战性的问题是评估。最紧迫的一些问题涉及到基准饱和、数据污染,以及测试示例质量的多样性。为了解决这些问题,我们提出了Selection Methodology for Accurate, Reduced, and Targeted (SMART) 筛选方法,这是一种新颖的方法,通过系统地去除信息量少和挑战性低的示例,来从现有的基准数据集中选择高质量的子集。我们的方法应用了三个筛选标准,去除(i)简单的示例,(ii)数据污染的示例,以及(iii)在嵌入空间距离相近的示例。我们在三个多项选择问答数据集中展示了SMART的有效性,其中我们的方法通过将数据集大小平均减少48%,同时提高与ChatBot Arena(一个更具开放性的手工评估环境)排名的相关性,展示了其有效性。我们的方法使我们能够更加高效,无论是使用SMART使新基准更具挑战性,还是重振旧数据集,同时仍能保持模型排名的相对性。