LLM2D
预测枢纽是LLMs中的上下文相关信息频繁词汇
Prediction hubs are context-informed frequent tokens in LLMs
作者: Beatrix M. G. Nielsen, Iuri Macocco, Marco Baroni
发布日期: 2/17/2025
arXiv ID: oai:arXiv.org:2502.10201v1

摘要

arXiv:2502.10201v1 类型: cross 摘要: 集聚性(hubness),即少数点往往是大量其他点的最近邻的倾向,在应用标准距离度量到高维数据时通常会出现,常常对基于距离的分析产生负面影响。由于自回归大型语言模型(LLMs)处理高维表示,我们询问它们是否也受到集聚性的影响。首先,我们从理论上证明,LLMs 执行的唯一表示比较操作,即在确定续写概率时,在上下文向量和未嵌入向量之间进行的比较,不是导致干扰集聚性通常出现的距离集中现象的特征。然后,我们通过实验证明,这种比较仍然会导致高程度的集聚性,但在这种情况下,集聚点并不构成干扰。它们实际上是上下文调节频繁出现的词语在预测下一个词语时候选池中经常出现的结果。另一方面,当对包含LLMs 表示的距离计算进行其他操作时,我们没有同样的理论保证,确实,我们看到了干扰集聚点的出现。综上,我们的工作一方面强调了虽然高维空间中集聚性普遍存在,但其并非总是一个需要减轻的负面属性,另一方面展示了各种广泛使用的大型语言模型已发展出一种猜疑策略,即不断为高频词语分配高概率。