LLM2D
大型语言模型可以在多元说话人场景中根据 versatility 指令转录语音
Large Language Model Can Transcribe Speech in Multi-Talker Scenarios with Versatile Instructions
作者: Lingwei Meng, Shujie Hu, Jiawen Kang, Zhaoqing Li, Yuejiao Wang, Wenxuan Wu, Xixin Wu, Xunying Liu, Helen Meng
发布日期: 4/3/2025
arXiv ID: oai:arXiv.org:2409.08596v2

摘要

arXiv:2409.08596v2 宣告类型: 交叉替换 摘要:近年来大型语言模型(LLMs)的进步彻底改变了各种领域,带来了显著的进步和新的机遇。尽管在语音相关任务方面取得了一些进展,但LLMs在多说话人场景中的应用尚不充分。在本项工作中,我们介绍了探索LLMs在多说话人环境中转录语音能力的开创性努力,遵循了与多说话人自动语音识别(ASR)、目标说话人ASR以及基于特定说话人属性(如性别、发言顺序、语言和所讲关键词)的ASR相关的多种指令。我们采用WavLM和Whisper编码器提取对说话者特征和语义上下文敏感的多方面语音表示,然后将这些表示输入使用LoRA微调的LLM中,从而赋予了语音理解和转录的能力。综合实验展示了我们提出的MT-LLM系统在鸡尾酒party场景中的出色表现,突显了LLM在复杂环境中根据用户指令处理语音相关任务的潜力。该系统的所有代码、模型和样本均可在 https://github.com/cuhealthybrains/MT-LLM 获取。