LLM2D

摘要

arXiv:2410.20245v2 评价类型: replace-cross 摘要：今天，自然语言处理（NLP）面临的一个最具挑战性的问题是评估。最紧迫的一些问题涉及到基准饱和、数据污染，以及测试示例质量的多样性。为了解决这些问题，我们提出了Selection Methodology for Accurate, Reduced, and Targeted (SMART) 筛选方法，这是一种新颖的方法，通过系统地去除信息量少和挑战性低的示例，来从现有的基准数据集中选择高质量的子集。我们的方法应用了三个筛选标准，去除（i）简单的示例，（ii）数据污染的示例，以及（iii）在嵌入空间距离相近的示例。我们在三个多项选择问答数据集中展示了SMART的有效性，其中我们的方法通过将数据集大小平均减少48%，同时提高与ChatBot Arena（一个更具开放性的手工评估环境）排名的相关性，展示了其有效性。我们的方法使我们能够更加高效，无论是使用SMART使新基准更具挑战性，还是重振旧数据集，同时仍能保持模型排名的相对性。