LLM2D
大规模语言模型在统计准确的表格数据生成中的注意事项
A Note on Statistically Accurate Tabular Data Generation Using Large Language Models
作者: Andrey Sidorenko
发布日期: 5/6/2025
arXiv ID: oai:arXiv.org:2505.02659v1

摘要

arXiv:2505.02659v1 类型: cross 摘要: 大型语言模型(LLMs)在生成合成表格数据方面显示出了前景,但现有方法难以保留复杂的特征依赖关系,尤其是在分类变量之间。本文介绍了一种概率驱动的提示方法,利用LLMs估计条件分布,从而实现更准确和可扩展的数据合成。结果突显了提示概率分布以增强LLM生成的表格数据的统计准确性的潜力。