LLM2D

摘要

arXiv:2505.02266v1 类别: cross 摘要：基于变换器的自然语言处理模型中的嵌入层 typically 占据了最多的模型参数比例，这些参数的数量随着词汇表大小的变化而变化，但并不会按比例提升性能。我们提出了一种替代方法，在该方法中，token 嵌入向量首先通过使用规范化值的傅里叶展开生成，然后通过一个轻量级的多层感知机（MLP）捕捉高阶交互。我们使用标准变换器和我们的架构在自然语言推断任务（SNLI 和 MNLI）上进行训练，并在句子文本相似性（STS-B）上进行零样本评估。我们的结果显示，所提出的方法在显著减少参数的情况下实现了竞争力的性能，训练速度更快，并且无需dropout即可有效运行。这项概念验证研究强调了可扩展、内存高效的语言模型的潜力，并激发了基于我们的发现进行进一步大规模实验的动机。