LLM2D

摘要

arXiv:2502.08512v1 宣告类型: cross 摘要: 大型语言模型（LLMs）广泛用于生成各种自然语言处理（NLP）任务所需的合成数据集，例如文本分类和总结。然而，准确测量这些合成数据集的多样性——这对于模型稳健性而言是至关重要的一个方面——仍然是一个重大挑战。在本文中，我们介绍了DCScore，这是一种从分类视角衡量合成数据集多样性的新方法。具体来说，DCScore将多样性评估形式化为一个样本分类任务，利用样本之间的相互关系。我们还提供了对DCScore满足的多样性相关公理的理论验证，突显了其作为原理上多样性的评估方法的角色。在合成数据集上的实验结果表明，DCScore在多个评估数据集的多样性伪真实值上具有更强的相关性，突显了其有效性。此外，实证和理论证据表明，与现有方法相比，DCScore显著降低了计算成本。代码可在以下地址获取：https://github.com/BlueWhaleLab/DCScore。