LLM2D

摘要

arXiv:2503.22275v1 交叉引用类型: cross 摘要: 将音频理解与生成整合到大型语言模型（LLMs）中仍然具有挑战性，原因在于音频的连续性及其导致的高采样率。为了解决这一问题，我们介绍了一种新颖的方法，结合了变量化编码与条件流匹配，将音频转换为超低比特率（0.23kpbs）的离散token，从而可以无缝地与LLMs中的文本token集成。我们使用低秩适应（LoRA）微调了一个预训练的基于文本的LLM，以评估其在实现真正多模态能力方面（即音频理解与生成）的有效性。我们的分词器在各种包含多种声学事件的数据集中表现优于传统的VQ-VAE。尽管在音频分词过程中损失了大量的细粒度细节，但使用离散token训练的多模态LLM在音频理解方面取得了与最先进方法相当的结果，尽管音频生成较差。我们的结果强调了需要更大的多样化数据集和更改进化的评估指标，以推进多模态LLM性能。