LLM2D
小波GPT:小波与大型语言模型的相遇
WaveletGPT: Wavelets Meet Large Language Models
作者: Prateek Verma
发布日期: 10/4/2024
arXiv ID: oai:arXiv.org:2409.12924v2

摘要

大型语言模型 (LLM) 引领了人工智能领域的新浪潮,影响着各个科学领域和学科。它们接受简单目标的训练:根据之前的上下文预测下一个标记。我们生活在一个周围大多数数据(例如文本、音频和音乐)都具有与其相关的多尺度结构的世界。本文在预训练期间将 LLMs 与传统的信号处理思想(即小波)融合,以利用这种结构。在不向 GPT 风格的 LLM 架构添加 **任何额外参数** 的情况下,我们在文本、原始音频和符号音乐中以几乎两倍的速度实现了相同的预训练性能。这是通过对中间嵌入施加结构来实现的。当训练相同数量的训练步骤时,我们在性能上取得了显著的提升,这与预训练更大的神经架构相当。我们的架构允许每个下一个标记预测访问每个 Transformer 解码器块中不同时间分辨率的中间嵌入。这项工作有望为将多速率信号处理思想融入传统的 LLM 预训练铺平道路。此外,我们展示了通过改进内部结构而不是单纯追求规模来提升模型性能。