LLM2D

摘要

arXiv:2504.09081v2 宣告类型: replace-cross 摘要：我们介绍了 SIFT（Speech Instruction Fine-Tuning），一个包含 50M 个示例的数据集，旨在用于语音-文本大型语言模型（LLMs）的指令微调和预训练。SIFT-50M 由公开可用的语音语料库构建而成，总计包含 14000 小时的语音，并利用了 LLM 以及现成的专家模型。该数据集涵盖了五种语言，囊括了广泛的语音理解以及可控的语音生成指令。使用 SIFT-50M，我们训练了 SIFT-LLM，该模型在指令跟随基准测试中优于现有语音-文本 LLM，在基础语音任务上也达到了竞争性的表现。为了支持进一步的研究，我们还引入了 EvalSIFT，一个专门用于评估语音-文本 LLM 指令跟随能力的基准数据集。