LLM2D
TabGraphs:基于表格特征的图学习基准及强基线方法
TabGraphs: A Benchmark and Strong Baselines for Learning on Graphs with Tabular Features
发布日期: 9/24/2024
arXiv ID: oai:arXiv.org:2409.14500v1

摘要

表格机器学习是工业和科学领域的一个重要领域。在这个领域中,表格行通常被视为独立的数据样本,但有时可以获得关于它们之间关系的额外信息,这些信息可以用来提高预测性能。这种信息可以自然地用图来建模,因此表格机器学习可能会受益于图机器学习方法。然而,图机器学习模型通常在具有同质节点特征的数据集上进行评估,这与表格数据集中存在的数值和类别特征的异质混合几乎没有共同之处。因此,表格和图机器学习研究中使用的数据之间存在关键差异,这使得人们无法理解图模型如何成功地转移到表格数据上。为了弥合这一差距,我们提出了一个具有异质表格节点特征和现实预测任务的多样化图的新基准。我们使用这个基准评估了大量模型,包括文献中之前被忽视的简单方法。我们的实验表明,图神经网络(GNNs)确实经常能为表格数据带来预测性能的提升,但标准的表格模型也可以通过简单的特征预处理来适应图数据,有时甚至能够与GNNs竞争甚至超越它们。基于我们的实证研究,我们为表格和图机器学习领域的研究人员和从业者提供了见解。