LLM2D

摘要

arXiv:2504.09081v1 宣告类型: cross 摘要: 我们介绍了SIFT（语音指令微调），这是一个包含50M个示例的数据集，旨在用于语音-文本大型语言模型（LLMs）的指令微调和预训练。SIFT-50M基于公开的语音语料库构建，这些语料库总共包含14000小时的语音，并利用了LLMs以及现成的专家模型。该数据集涵盖了五种语言，包括广泛的语音理解以及可控语音生成指令。使用SIFT-50M，我们训练了SIFT-LLM，在指令遵循基准测试中优于现有的语音-文本LLMs，在基础语音任务上也取得了竞争力的表现。为了支持进一步的研究，我们还引入了EvalSIFT，这是一个专门用于评估语音-文本LLMs指令遵循能力的基准数据集。