LLM2D

摘要

arXiv:2409.08596v2 宣告类型: 交叉替换摘要：近年来大型语言模型（LLMs）的进步彻底改变了各种领域，带来了显著的进步和新的机遇。尽管在语音相关任务方面取得了一些进展，但LLMs在多说话人场景中的应用尚不充分。在本项工作中，我们介绍了探索LLMs在多说话人环境中转录语音能力的开创性努力，遵循了与多说话人自动语音识别（ASR）、目标说话人ASR以及基于特定说话人属性（如性别、发言顺序、语言和所讲关键词）的ASR相关的多种指令。我们采用WavLM和Whisper编码器提取对说话者特征和语义上下文敏感的多方面语音表示，然后将这些表示输入使用LoRA微调的LLM中，从而赋予了语音理解和转录的能力。综合实验展示了我们提出的MT-LLM系统在鸡尾酒party场景中的出色表现，突显了LLM在复杂环境中根据用户指令处理语音相关任务的潜力。该系统的所有代码、模型和样本均可在 https://github.com/cuhealthybrains/MT-LLM 获取。