摘要
arXiv:2504.09081v1 宣告类型: cross
摘要: 我们介绍了SIFT(语音指令微调),这是一个包含50M个示例的数据集,旨在用于语音-文本大型语言模型(LLMs)的指令微调和预训练。SIFT-50M基于公开的语音语料库构建,这些语料库总共包含14000小时的语音,并利用了LLMs以及现成的专家模型。该数据集涵盖了五种语言,包括广泛的语音理解以及可控语音生成指令。使用SIFT-50M,我们训练了SIFT-LLM,在指令遵循基准测试中优于现有的语音-文本LLMs,在基础语音任务上也取得了竞争力的表现。为了支持进一步的研究,我们还引入了EvalSIFT,这是一个专门用于评估语音-文本LLMs指令遵循能力的基准数据集。