LLM2D
面向数据的Transformer模型:在野合成分布合成表数据检测
Datum-wise Transformer for Synthetic Tabular Data Detection in the Wild
发布日期: 4/15/2025
arXiv ID: oai:arXiv.org:2504.08829v1

摘要

arXiv:2504.08829v1 Announcement 类型: cross 摘要:生成模型的强大功能引发了对已发布内容真实性的重大担忧。为了解决这个问题,已经提出了多种合成内容检测方法,用于均匀结构的媒体,如图像或文本。然而,尽管表格数据在工业和政府中非常重要,但在检测合成表格数据方面的工作却很少。这种数据形式由于其结构的多样性而难以处理:一个表格和其他表格的列的数量和类型可能区别很大。我们解决了检测野生状态下的合成表格数据这一棘手问题,即当模型部署在它从未见过的表格结构上时。我们引入了一种新颖的数据项级变压器架构,并证明了其优于现有的模型。此外,我们研究了领域适应技术的应用,以提高我们模型的有效性,从而提供更可靠的伪造数据检测解决方案。