摘要
arXiv:2402.03970v2 公告类型: replace-cross
摘要:表格数据是一种广泛的数据模态,由于其在许多实际应用中的灵活性和易用性。处理表格数据的分类任务的主要启发式方法依赖于经典的机器学习技术,因为深度学习模型的优势尚未得到证明。这引发了新的深度学习范式是否能够超越经典方法的问题。最近对表格数据的研究提供了一种独特的视角,阐述了在这一领域中神经网络的局限性,并突显了梯度提升决策树(GBDT)在各种数据集上的可扩展性和鲁棒性方面的优越性。然而,新型基础模型的质量尚未得到全面评估,也未与现有的表格分类方法进行公平比较。我们的研究基于其底层学习范式对十种最先进的神经模型进行了分类,具体表明元学习基础模型在小数据集场景中优于GBDT。尽管数据集特定的神经网络通常优于基于LLM的表格分类器,但在更高的计算需求成本下,它们被一个表现出最佳性能的自动机器学习库所超越。