摘要
arXiv:2505.02266v1 类别: cross
摘要:基于变换器的自然语言处理模型中的嵌入层 typically 占据了最多的模型参数比例,这些参数的数量随着词汇表大小的变化而变化,但并不会按比例提升性能。我们提出了一种替代方法,在该方法中,token 嵌入向量首先通过使用规范化值的傅里叶展开生成,然后通过一个轻量级的多层感知机(MLP)捕捉高阶交互。我们使用标准变换器和我们的架构在自然语言推断任务(SNLI 和 MNLI)上进行训练,并在句子文本相似性(STS-B)上进行零样本评估。我们的结果显示,所提出的方法在显著减少参数的情况下实现了竞争力的性能,训练速度更快,并且无需dropout即可有效运行。这项概念验证研究强调了可扩展、内存高效的语言模型的潜力,并激发了基于我们的发现进行进一步大规模实验的动机。