LLM2D
列词汇关联(CVA):无数据表格的语义解释
Column Vocabulary Association (CVA): semantic interpretation of dataless tables
发布日期: 9/24/2024
arXiv ID: oai:arXiv.org:2409.13709v1

摘要

传统的语义表格解释(STI)方法主要依赖于底层表格数据来创建语义注释。今年的SemTab挑战赛引入了“元数据到知识图谱”赛道,该赛道专注于仅使用元数据信息进行STI,而无需访问底层数据。为了应对这一新挑战,我们引入了一个新术语:列词汇关联(CVA)。该术语指的是仅基于元数据信息对列标题进行语义注释的任务。在本研究中,我们评估了各种方法在执行CVA任务中的表现,包括大型语言模型(LLMs)和检索增强生成(RAG)方法,以及传统的基于相似度的方法与SemanticBERT。我们的方法采用零样本设置,没有预训练或示例传递给大型语言模型(LLMs),因为我们旨在避免特定领域的设置。我们研究了总共7种不同的LLMs,其中包括三种商业GPT模型(即gpt-3.5-turbo-0.125、gpt-4o和gpt-4-turbo)和四种开源模型(即llama3-80b、llama3-7b、gemma-7b和mixtral-8x7b)。我们将这些模型与RAG系统集成,并探讨温度设置的变化如何影响性能。此外,我们继续通过使用SemanticBERT执行CVA任务来进行研究,分析各种元数据信息如何影响其性能。初步发现表明,LLMs在温度低于1.0时通常表现良好,在某些情况下达到100%的准确率。然而,我们的研究也揭示了数据的性质显著影响CVA任务的结果。事实上,在输入数据和词汇表相关的情况下(例如由同一组织创建),传统方法似乎超越了LLMs的表现。