LLM2D

摘要

arXiv:2502.04465v1 宣告类型: cross 摘要：大规模语言模型通过在大规模数据集上进行自我监督的预训练，革命性地改变了自然语言处理。受此成功的影响，研究人员探索了将这些方法应用于语音识别，通过神经音频编解码器将连续音频离散化成令牌。然而，现有方法存在一些局限性，包括高比特率、语义或声学信息的损失，以及在试图同时捕捉这些信息时对多码本设计的依赖，这增加了下游任务的架构复杂性。为了解决这些挑战，我们引入了FocalCodec，这是一种基于焦点调制的高效低比特率编解码器，使用单一的二进制码本将语音压缩至0.16至0.65 kbps之间。FocalCodec在更低比特率下提供了与当前最佳性能相当的语音重合成和声音转换性能，同时有效处理了多语言语音和嘈杂环境。下游任务的评估表明，FocalCodec成功保留了足够的语义和声学信息，同时也很适合生成建模。演示样本、代码和检查点可在 https://lucadellalib.github.io/focalcodec-web/ 获取。