摘要
arXiv:2402.01685v3 宣告类型: replace-cross
摘要:我们引入了一种用于大规模表格数据模式匹配(SM)的独特方法,名为SMUTF(基于生成标签和混合特征的模式匹配),假设有监督学习在开放域任务中不会影响性能,从而使得跨域匹配变得有效。该系统独特地结合了基于规则的特征工程、预训练语言模型和生成大型语言模型。受人道主义交换语言的启发,我们创新地为每一列数据部署了“生成标签”,从而增强了模式匹配的有效性。SMUTF具有广泛的适应性,能够无缝与任何现有的预训练嵌入、分类方法和生成模型配合使用。
由于缺乏广泛的公开可用的数据集来支持SM任务,我们创建并开源了从公共人道主义数据中提取的HDXSM数据集。我们认为这是目前最全面的SM数据集。在各种公开数据集和新型HDXSM数据集的评估中,SMUTF展现了卓越的表现,在准确性和效率上超越了现有的顶级模型,并使F1分数提高了11.84%,ROC AUC分数提高了5.08%。代码可在https://github.com/fireindark707/Python-Schema-Matching获得。