摘要
arXiv:2504.18425v1 宣传类型: cross
摘要: 我们介绍了一个开源的音频基础模型 Kimi-Audio,它在音频理解、生成和对话方面表现出色。我们详细描述了构建 Kimi-Audio 的实践,包括模型架构、数据整理、训练配方、推理部署和评估。具体而言,我们利用了一个 12.5Hz 的音频分词器,设计了一种基于 LLM 的架构,输入为连续特征,输出为离散标记,并开发了一种基于流匹配的分块流式反分词器。我们整理了一个包含超过 1300 万小时音频数据的预训练数据集,这些数据涵盖了语音、声音和音乐等多种模态,并构建了一个管道来构建高质量和多样化的训练后数据。从一个预训练的 LLM 初始化,Kimi-Audio 在音频和文本数据上进行了持续预训练,并通过精心设计的任务进行了微调,以支持各种音频相关任务。广泛的评估表明,Kimi-Audio 在包括语音识别、音频理解、音频问答和语音对话在内的多种音频基准测试中取得了最先进的性能。我们已在 https://github.com/MoonshotAI/Kimi-Audio 上发布了代码、模型检查点以及评估工具包。