LLM2D

摘要

arXiv:2503.20903v1 类别: cross 摘要: 合成表格数据生成已成为解决数据不足和隐私问题的一种有前途的方法。随着近年来大型语言模型性能的显著提升，研究人员开始将这些模型应用于表格数据的生成。然而，人们对大型语言模型生成的表格数据的质量知之甚少。目前评估合成表格数据质量的主要方法是训练-合成-测试-真实方法，在这种方法中，通过比较通过分别训练的真实数据集和合成数据集训练的机器学习模型在某些下游任务中的表现，来衡量人工示例与原始数据的相似度。这种方法并未直接测量生成数据的分布与原始数据的分布有多接近。本文通过观察数据内部的列间依赖关系，提出了直接评估合成表格数据与真实数据的方法。我们发现，无论是通过少数提示查询还是微调的大语言模型（GPT-2）以及生成对抗网络（CTGAN）模型，生成的数据的依赖关系都不如原始真实数据。本研究的结果可以为未来合成数据生成实践提供指导，以提高数据质量。