摘要
arXiv:2502.05564v1 宣布类型: cross
摘要:长期以来,梯度提升决策树在表格数据上的主导地位目前正被使用上下文学习(ICL)的表格基础模型所挑战:将训练数据作为测试数据的上下文,并在单次前向传递中进行预测而不更新参数。虽然最近的TabPFNv2基础模型(2025年)在具有多达10,000个样本的表格上表现出色,但其交替的列级和行级注意力机制使得处理大规模训练集在计算上变得不可行。因此,ICL是否可以有效地扩展并在更大的表格上提供收益?我们引入了TabICL,这是一种用于分类的表格基础模型,它在最多包含60,000个样本的合成数据集上进行了预训练,并且能够在经济实惠的资源上处理多达500,000个样本。这得益于一种新颖的两阶段架构:先进行列级然后进行行级注意力机制以构建固定维度的行嵌入,之后是用于高效的ICL的变压器。在TALENT基准测试的200个分类数据集中,TabICL与TabPFNv2表现相当,但在系统上更快(最多快10倍),并且显著优于所有其他方法。在56个包含超过10,000个样本的数据集中,TabICL超过了TabPFNv2和CatBoost,展示了ICL在大数据中的潜力。