LLM2D
VisTabNet: 调整视觉 transformers 用于表格数据
VisTabNet: Adapting Vision Transformers for Tabular Data
作者: Witold Wydma\'nski, Ulvi Movsum-zada, Jacek Tabor, Marek \'Smieja
发布日期: 4/28/2025
arXiv ID: oai:arXiv.org:2501.00057v2

摘要

arXiv:2501.00057v2 通知类型: 取代-跨模态 摘要:尽管深度学习模型在自然语言处理和计算机视觉方面取得了巨大的成功,但在表格数据方面却没有观察到可比的进步,而表格数据仍然是生物、工业和金融应用中最常见的数据类型。特别是,将大规模预训练模型应用于定义在小规模表格数据集上的下游任务存在挑战。为了解决这个问题,我们提出了VisTabNet——一种跨模态迁移学习方法,该方法允许使用预训练权重适应 Vision Transformer (ViT) 处理表格数据。通过将表格输入投影为 ViT 可接受的 patch 表嵌入,可以直接将预训练的 Transformer 编码器应用于表格输入。这种方法消除了为处理表格数据设计合适架构的概念性成本,同时减少了从头训练模型的计算成本。在多个小规模表格数据集(样本数少于 1k)上的实验结果表明,VisTabNet 的优越性,其表现优于传统集成方法和最近的深度学习模型。所提出的方法超越了传统的迁移学习实践,展示了预训练图像模型可以转移到解决表格问题的可能性,从而扩展了迁移学习的边界。我们共享了我们的示例实现,一个可以在 https://github.com/wwydmanski/VisTabNet 查看的 GitHub 仓库。