摘要
arXiv:2410.20245v2 评价类型: replace-cross
摘要:今天,自然语言处理(NLP)面临的一个最具挑战性的问题是评估。最紧迫的一些问题涉及到基准饱和、数据污染,以及测试示例质量的多样性。为了解决这些问题,我们提出了Selection Methodology for Accurate, Reduced, and Targeted (SMART) 筛选方法,这是一种新颖的方法,通过系统地去除信息量少和挑战性低的示例,来从现有的基准数据集中选择高质量的子集。我们的方法应用了三个筛选标准,去除(i)简单的示例,(ii)数据污染的示例,以及(iii)在嵌入空间距离相近的示例。我们在三个多项选择问答数据集中展示了SMART的有效性,其中我们的方法通过将数据集大小平均减少48%,同时提高与ChatBot Arena(一个更具开放性的手工评估环境)排名的相关性,展示了其有效性。我们的方法使我们能够更加高效,无论是使用SMART使新基准更具挑战性,还是重振旧数据集,同时仍能保持模型排名的相对性。