LLM2D
表格式数据适配器:改进未标记私有数据的异常检测
Tabular Data Adapters: Improving Outlier Detection for Unlabeled Private Data
作者: Dayananda Herurkar, J\"orn Hees, Vesselin Tzvetkov, Andreas Dengel
发布日期: 4/30/2025
arXiv ID: oai:arXiv.org:2504.20862v1

摘要

arXiv:2504.20862v1 Announce Type: cross 摘要:深度学习方法的显著成功往往基于并演示在大规模公共数据集上。然而,在将这些方法应用于内部私有数据集时,经常会面临由于数据集结构差异、领域转移以及缺乏标签而带来的挑战。在本工作中,我们提出了表格数据适配器(TDA),这是一种用于生成未标记表格数据在离群值检测任务中的软标签的新型方法。通过识别统计上相似的公共数据集,并基于共享的自编码器将私有数据转换为与最新公共模型兼容的格式,我们的方法能够生成弱标签。因此,它有助于通过基于现有公共数据集的离群值检测模型来缓解标签冷启动问题。在对50个不同领域的表格数据集进行的实验中,我们证明,与基线方法相比,我们的方法能够提供更准确的注释同时减少计算时间。我们的方法提供了一个可扩展、高效且成本效益高的解决方案,以弥合公共研究模型与实际工业应用之间的差距。