LLM2D

摘要

arXiv:2503.21810v1 类型：交叉摘要：表格数据的分类学推理是模式推理的一个关键任务，旨在发现表中的实体类型（即概念）并构建它们的层次结构。它在数据管理、数据探索、本体学习和许多以数据为中心的应用中扮演着重要角色。现有的模式推理系统更多地集中在XML、JSON或RDF数据上，并且通常依赖于数据的词汇格式和结构来计算相似性，对表内文本的语义利用有限。受使用大型语言模型（LLMs）进行分类学完成和构建的近期工作的启发，本文提出了两种基于LLM的方法来对表格进行分类学推理：(i) EmTT，通过使用对比学习编码器进行微调BERT等LLM并对列进行嵌入，并利用聚类进行层次结构构建，以及 (ii) GeTT，通过使用GPT-4等解码器进行迭代提示生成表实体类型及其层次结构。对三个真实世界数据集的广泛评估涵盖了输出分类学的不同方面，六个指标表明，EmTT和GeTT都可以生成与真实值高度一致的分类学。