LLM2D
语言模型生命周期中组合性的几何特征
Geometric Signatures of Compositionality Across a Language Model's Lifetime
作者: Jin Hwa Lee, Thomas Jiralerspong, Lei Yu, Yoshua Bengio, Emily Cheng
发布日期: 10/10/2024
arXiv ID: oai:arXiv.org:2410.01444v2

摘要

大型语言模型 (LLM) 在许多自然语言处理任务中已经取代了传统方法。然而,在命名实体识别 (NER) 中,现有的基于 LLM 的方法…… 组合性,即表达式的含义是由其各个部分的含义和句法规则构成的这一概念,使得人类语言具有无限的生产力。首次,人工语言模型 (LM) 能够在多项组合泛化任务中与人类的表现相匹配。然而,关于这些能力背后的表征机制,还有许多有待理解之处。我们采用了一种高层次的几何方法来解决这个问题,即将数据集中的组合性程度与它在 LM 下的表征的内在维度(一种特征复杂度的度量)联系起来。我们不仅发现数据集的组合性程度反映在表征的内在维度中,而且发现组合性和几何复杂性之间的关系是由于在训练过程中学习到的语言特征造成的。最后,我们的分析揭示了线性维度和非线性维度之间显著的对比,表明它们分别编码了语言组合的形式和语义方面。