LLM2D
从令牌到格子:语言模型中的 emergent 格子结构
From Tokens to Lattices: Emergent Lattice Structures in Language Models
作者: Bo Xiong, Steffen Staab
发布日期: 4/15/2025
arXiv ID: oai:arXiv.org:2504.08778v1

摘要

arXiv:2504.08778v1 通知类型: cross 摘要: 预训练的掩蔽语言模型(MLMs)展示了令人印象深刻的理解和编码概念知识的能力,揭示了概念之间的晶格结构。这提出了一个关键问题:这些概念化是如何从MLM预训练中产生的?在这篇论文中,我们从形式概念分析(FCA)的角度探讨了这个问题,形式概念分析是一种从对象-属性关系观察中推导概念晶格的数学框架。我们表明,MLM的目标隐式学习了一个描述对象、属性及其依赖性的\emph{形式语境},这使得通过FCA重构概念晶格成为可能。我们提出了一种从预训练的MLM构建概念晶格的新框架,并研究了MLM在晶格结构学习中的归纳偏置的来源。该框架不同于以往的工作,因为它不依赖于人工定义的概念,并允许发现“潜在”的概念,这些概念超越了人工定义。我们创建了三个数据集进行评估,实验证据验证了我们的假设。