LLM2D
TabGraphs:一个用于学习具有表格节点特征的图的基准和强基线
TabGraphs: A Benchmark and Strong Baselines for Learning on Graphs with Tabular Node Features
作者: Gleb Bazhenov, Oleg Platonov, Liudmila Prokhorenkova
发布日期: 9/27/2024
arXiv ID: oai:arXiv.org:2409.14500v2

摘要

表格机器学习是工业和科学领域的重要领域。在该领域,表格行通常被视为独立的数据样本,但有时会提供有关它们之间关系的附加信息,这些信息可用于提高预测性能。这种信息可以用图自然地建模,因此表格机器学习可以从图机器学习方法中受益。然而,图机器学习模型通常在具有同质节点特征的数据集上进行评估,这些特征与表格数据集中存在的数值和类别特征的异质混合物几乎没有共同点。因此,表格和图机器学习研究中使用的数据之间存在关键差异,这无法让人了解图模型可以成功地转移到表格数据中的程度。为了弥合这一差距,我们提出了一种新的基准,其中包含具有异质表格节点特征和现实预测任务的各种图。我们使用此基准评估了大量模型,包括文献中以前被忽视的简单方法。我们的实验表明,图神经网络(GNN)确实可以经常为表格数据带来预测性能的提升,但标准表格模型也可以通过使用简单的特征预处理来适应图数据,这有时使它们能够与 GNN 竞争,甚至胜过 GNN。根据我们的实证研究,我们为表格和图机器学习领域的科研人员和从业者提供了见解。