摘要
arXiv:2409.12924v4 宣告类型:替换-交叉
摘要:大型语言模型(LLMs)带来了人工智能的新一轮进展,影响了每一门科学领域和学科。我们生活在一个大多数周围数据,例如文本、音频和音乐,都具有多尺度结构的世界。本文在预训练阶段将传统的信号处理思想——小波——融入LLMs中,以利用这种结构。在学术设置中,我们通过GPT风格的LLMs架构,在不添加任何额外参数的情况下,几乎两倍于文本、音频和图像的速度达到相同的预训练性能。这是通过对中间嵌入施加结构来实现的。当我们使用相同数量的训练步骤进行训练时,我们在性能上取得了显著的改进,这与预训练更大规模的神经架构相当。此外,我们展示了这一点在Long Range Arena基准测试以及多种输入表示上也适用,包括字符、BP码词元、字节、波形、数学表达式和图像像素。我们的架构允许在每个解码器块中,下一个词的预测能够访问不同时间分辨率的中间嵌入。我们希望这将为在预训练中引入多速率信号处理铺平道路。