LLM2D

摘要

传统的语义表格解释（STI）方法主要依赖于底层表格数据来创建语义注释。今年的SemTab挑战赛引入了“元数据到知识图谱”赛道，该赛道专注于仅使用元数据信息进行STI，而无需访问底层数据。为了应对这一新挑战，我们引入了一个新术语：列词汇关联（CVA）。该术语指的是仅基于元数据信息对列标题进行语义注释的任务。在本研究中，我们评估了各种方法在执行CVA任务中的表现，包括大型语言模型（LLMs）和检索增强生成（RAG）方法，以及传统的基于相似度的方法与SemanticBERT。我们的方法采用零样本设置，没有预训练或示例传递给大型语言模型（LLMs），因为我们旨在避免特定领域的设置。我们研究了总共7种不同的LLMs，其中包括三种商业GPT模型（即gpt-3.5-turbo-0.125、gpt-4o和gpt-4-turbo）和四种开源模型（即llama3-80b、llama3-7b、gemma-7b和mixtral-8x7b）。我们将这些模型与RAG系统集成，并探讨温度设置的变化如何影响性能。此外，我们继续通过使用SemanticBERT执行CVA任务来进行研究，分析各种元数据信息如何影响其性能。初步发现表明，LLMs在温度低于1.0时通常表现良好，在某些情况下达到100%的准确率。然而，我们的研究也揭示了数据的性质显著影响CVA任务的结果。事实上，在输入数据和词汇表相关的情况下（例如由同一组织创建），传统方法似乎超越了LLMs的表现。