摘要
arXiv:2502.10125v1 公告类型: cross
摘要:学习关系表格数据最近受到了广泛关注,但大多数研究专注于单个表格,忽视了跨表格学习的潜力。在表格缺乏共享特征和预对齐数据的情况下,跨表格学习尤其具有巨大的机会,但也带来了重大挑战。对齐的空间是巨大的,确定表格之间的准确对齐具有高度复杂性。我们提出了一种名为潜实体对齐学习(Leal)的新型框架,该框架能够在不要求共享特征或预对齐数据的情况下实现有效的跨表格训练。Leal 的工作原理是正确对齐的数据比错误对齐的数据会产生更低的损失,这种概念在其软对齐机制中得到了体现。该机制与可微分的聚类采样模块相结合,确保了对大型关系表格的高效扩展。此外,我们提供了聚类采样模块近似能力的理论证明。在五个真实世界和五个合成数据集上的广泛实验表明,Leal 的预测性能比最先进的方法提高了高达 26.8%,证明了其有效性和可扩展性。