LLM2D

摘要

arXiv:2409.12924v4 宣告类型：替换-交叉摘要：大型语言模型（LLMs）带来了人工智能的新一轮进展，影响了每一门科学领域和学科。我们生活在一个大多数周围数据，例如文本、音频和音乐，都具有多尺度结构的世界。本文在预训练阶段将传统的信号处理思想——小波——融入LLMs中，以利用这种结构。在学术设置中，我们通过GPT风格的LLMs架构，在不添加任何额外参数的情况下，几乎两倍于文本、音频和图像的速度达到相同的预训练性能。这是通过对中间嵌入施加结构来实现的。当我们使用相同数量的训练步骤进行训练时，我们在性能上取得了显著的改进，这与预训练更大规模的神经架构相当。此外，我们展示了这一点在Long Range Arena基准测试以及多种输入表示上也适用，包括字符、BP码词元、字节、波形、数学表达式和图像像素。我们的架构允许在每个解码器块中，下一个词的预测能够访问不同时间分辨率的中间嵌入。我们希望这将为在预训练中引入多速率信号处理铺平道路。