LLM2D

摘要

大型语言模型 (LLM) 引领了人工智能领域的新浪潮，影响着各个科学领域和学科。它们接受简单目标的训练：根据之前的上下文预测下一个标记。我们生活在一个周围大多数数据（例如文本、音频和音乐）都具有与其相关的多尺度结构的世界。本文在预训练期间将 LLMs 与传统的信号处理思想（即小波）融合，以利用这种结构。在不向 GPT 风格的 LLM 架构添加 **任何额外参数** 的情况下，我们在文本、原始音频和符号音乐中以几乎两倍的速度实现了相同的预训练性能。这是通过对中间嵌入施加结构来实现的。当训练相同数量的训练步骤时，我们在性能上取得了显著的提升，这与预训练更大的神经架构相当。我们的架构允许每个下一个标记预测访问每个 Transformer 解码器块中不同时间分辨率的中间嵌入。这项工作有望为将多速率信号处理思想融入传统的 LLM 预训练铺平道路。此外，我们展示了通过改进内部结构而不是单纯追求规模来提升模型性能。