LLM2D
使用大语言模型推断表格数据的分类学指南
Taxonomy Inference for Tabular Data Using Large Language Models
作者: Zhenyu Wu, Jiaoyan Chen, Norman W. Paton
发布日期: 3/31/2025
arXiv ID: oai:arXiv.org:2503.21810v1

摘要

arXiv:2503.21810v1 类型:交叉 摘要:表格数据的分类学推理是模式推理的一个关键任务,旨在发现表中的实体类型(即概念)并构建它们的层次结构。它在数据管理、数据探索、本体学习和许多以数据为中心的应用中扮演着重要角色。现有的模式推理系统更多地集中在XML、JSON或RDF数据上,并且通常依赖于数据的词汇格式和结构来计算相似性,对表内文本的语义利用有限。受使用大型语言模型(LLMs)进行分类学完成和构建的近期工作的启发,本文提出了两种基于LLM的方法来对表格进行分类学推理:(i) EmTT,通过使用对比学习编码器进行微调BERT等LLM并对列进行嵌入,并利用聚类进行层次结构构建,以及 (ii) GeTT,通过使用GPT-4等解码器进行迭代提示生成表实体类型及其层次结构。对三个真实世界数据集的广泛评估涵盖了输出分类学的不同方面,六个指标表明,EmTT和GeTT都可以生成与真实值高度一致的分类学。