LLM2D
SIFT-50M:用于语音指令微调的大型多语言数据集
SIFT-50M: A Large-Scale Multilingual Dataset for Speech Instruction Fine-Tuning
作者: Prabhat Pandey, Rupak Vignesh Swaminathan, K V Vijay Girish, Arunasish Sen, Jian Xie, Grant P. Strimel, Andreas Schwarz
发布日期: 4/15/2025
arXiv ID: oai:arXiv.org:2504.09081v1

摘要

arXiv:2504.09081v1 宣告类型: cross 摘要: 我们介绍了SIFT(语音指令微调),这是一个包含50M个示例的数据集,旨在用于语音-文本大型语言模型(LLMs)的指令微调和预训练。SIFT-50M基于公开的语音语料库构建,这些语料库总共包含14000小时的语音,并利用了LLMs以及现成的专家模型。该数据集涵盖了五种语言,包括广泛的语音理解以及可控语音生成指令。使用SIFT-50M,我们训练了SIFT-LLM,在指令遵循基准测试中优于现有的语音-文本LLMs,在基础语音任务上也取得了竞争力的表现。为了支持进一步的研究,我们还引入了EvalSIFT,这是一个专门用于评估语音-文本LLMs指令遵循能力的基准数据集。