LLM2D

摘要

自回归模型通常应用于离散标记序列，但最近的研究表明，以自回归的方式生成连续嵌入序列也是可行的。然而，这种连续自回归模型 (CAM) 由于推理过程中误差累积，在较长序列上的生成质量可能会下降。我们提出了一种新方法来解决这个问题，即在训练过程中向输入嵌入中注入随机噪声。此过程使模型能够抵抗推理过程中不同误差水平的影响。我们还通过引入低水平噪声的推理过程来减少误差累积。在音乐音频生成的实验表明，CAM 在保持较长序列音频质量的同时，大大优于现有的自回归和非自回归方法。这项工作为在纯自回归环境下生成连续嵌入铺平了道路，为实时和交互式生成应用开辟了新的可能性。