LLM2D

摘要

arXiv:2402.01685v3 宣告类型: replace-cross 摘要：我们引入了一种用于大规模表格数据模式匹配（SM）的独特方法，名为SMUTF（基于生成标签和混合特征的模式匹配），假设有监督学习在开放域任务中不会影响性能，从而使得跨域匹配变得有效。该系统独特地结合了基于规则的特征工程、预训练语言模型和生成大型语言模型。受人道主义交换语言的启发，我们创新地为每一列数据部署了“生成标签”，从而增强了模式匹配的有效性。SMUTF具有广泛的适应性，能够无缝与任何现有的预训练嵌入、分类方法和生成模型配合使用。由于缺乏广泛的公开可用的数据集来支持SM任务，我们创建并开源了从公共人道主义数据中提取的HDXSM数据集。我们认为这是目前最全面的SM数据集。在各种公开数据集和新型HDXSM数据集的评估中，SMUTF展现了卓越的表现，在准确性和效率上超越了现有的顶级模型，并使F1分数提高了11.84%，ROC AUC分数提高了5.08%。代码可在https://github.com/fireindark707/Python-Schema-Matching获得。