LLM2D
衡量合成数据集的多样性
Measuring Diversity in Synthetic Datasets
作者: Yuchang Zhu, Huizhe Zhang, Bingzhe Wu, Jintang Li, Zibin Zheng, Peilin Zhao, Liang Chen, Yatao Bian
发布日期: 2/13/2025
arXiv ID: oai:arXiv.org:2502.08512v1

摘要

arXiv:2502.08512v1 宣告类型: cross 摘要: 大型语言模型(LLMs)广泛用于生成各种自然语言处理(NLP)任务所需的合成数据集,例如文本分类和总结。然而,准确测量这些合成数据集的多样性——这对于模型稳健性而言是至关重要的一个方面——仍然是一个重大挑战。在本文中,我们介绍了DCScore,这是一种从分类视角衡量合成数据集多样性的新方法。具体来说,DCScore将多样性评估形式化为一个样本分类任务,利用样本之间的相互关系。我们还提供了对DCScore满足的多样性相关公理的理论验证,突显了其作为原理上多样性的评估方法的角色。在合成数据集上的实验结果表明,DCScore在多个评估数据集的多样性伪真实值上具有更强的相关性,突显了其有效性。此外,实证和理论证据表明,与现有方法相比,DCScore显著降低了计算成本。代码可在以下地址获取:https://github.com/BlueWhaleLab/DCScore。