摘要
arXiv:2409.12924v1 公告类型: 交叉 摘要: 大型语言模型 (LLMs) 引领了人工智能的新浪潮,影响着每一个科学领域和学科。它们基于一个简单的目标进行训练:根据先前的上下文预测下一个标记。我们生活在一个数据大多具有多尺度结构的世界中,例如文本、音频和音乐。本文在预训练阶段将传统信号处理思想,即小波,融入 LLMs,以利用这种结构。在不增加任何额外参数的情况下,我们几乎以两倍的速度在文本、原始音频和符号音乐上实现了相同的预训练性能。这是通过在中间嵌入中施加结构来实现的。在相同训练步数下,我们实现了显著的性能提升,这相当于预训练一个更大的神经架构。我们的架构允许每个下一个标记预测在每个 Transformer 解码器块中访问不同时间分辨率的中间嵌入。这项工作有望为将多速率信号处理思想融入传统 LLM 预训练铺平道路。此外,我们展示了通过改进内部结构而不是仅仅追求规模来提升模型性能。