摘要
arXiv:2503.22275v1 交叉引用类型: cross
摘要: 将音频理解与生成整合到大型语言模型(LLMs)中仍然具有挑战性,原因在于音频的连续性及其导致的高采样率。为了解决这一问题,我们介绍了一种新颖的方法,结合了变量化编码与条件流匹配,将音频转换为超低比特率(0.23kpbs)的离散token,从而可以无缝地与LLMs中的文本token集成。我们使用低秩适应(LoRA)微调了一个预训练的基于文本的LLM,以评估其在实现真正多模态能力方面(即音频理解与生成)的有效性。我们的分词器在各种包含多种声学事件的数据集中表现优于传统的VQ-VAE。尽管在音频分词过程中损失了大量的细粒度细节,但使用离散token训练的多模态LLM在音频理解方面取得了与最先进方法相当的结果,尽管音频生成较差。我们的结果强调了需要更大的多样化数据集和更改进化的评估指标,以推进多模态LLM性能。