LLM2D
一个大型语言模型可能知道的数字是什么?
What is a Number, That a Large Language Model May Know It?
作者: Raja Marjieh, Veniamin Veselovsky, Thomas L. Griffiths, Ilia Sucholutsky
发布日期: 2/4/2025
arXiv ID: oai:arXiv.org:2502.01540v1

摘要

arXiv:2502.01540v1 类别: 切换 摘要:数字是人类表示和描述周围世界的基本组成部分。因此,学习有效的数字表示对于大规模语言模型的成功至关重要,随着这些模型在日常生活决策中的集成越来越深入。然而,这些模型面临一个挑战:根据上下文,相同的数字标记序列,例如911,既可以被视作一个数字,也可以被视作一个字符串。这种二元性会导致什么样的表示形式,以及其下游的影响是什么?使用认知科学中的基于相似性的提示技术,我们展示了大规模语言模型学习到了一个融合了字符串和数字表示的表示空间。具体而言,我们展示了这些模型在整数对上引发的相似性判断可以通过Levenshtein编辑距离和数值对数线性距离的组合来捕捉,这表明存在一种交织的表示形式。通过一系列实验,我们展示了这种交织在潜在嵌入中的反映,以及上下文如何减轻但无法完全消除这种交织,同时还展示了这种交织如何传播到一个现实决策场景中。这些结果揭示了变压器模型中的一种表示张力,这些模型必须从文本输入中学习数字的含义。