摘要
arXiv:2504.09081v2 宣告类型: replace-cross
摘要:我们介绍了 SIFT(Speech Instruction Fine-Tuning),一个包含 50M 个示例的数据集,旨在用于语音-文本大型语言模型(LLMs)的指令微调和预训练。SIFT-50M 由公开可用的语音语料库构建而成,总计包含 14000 小时的语音,并利用了 LLM 以及现成的专家模型。该数据集涵盖了五种语言,囊括了广泛的语音理解以及可控的语音生成指令。使用 SIFT-50M,我们训练了 SIFT-LLM,该模型在指令跟随基准测试中优于现有语音-文本 LLM,在基础语音任务上也达到了竞争性的表现。为了支持进一步的研究,我们还引入了 EvalSIFT,一个专门用于评估语音-文本 LLM 指令跟随能力的基准数据集。