LLM2D
LauraTSE:使用自回归解码器型语言模型的目标speaker提取
LauraTSE: Target Speaker Extraction using Auto-Regressive Decoder-Only Language Models
作者: Beilong Tang, Bang Zeng, Ming Li
发布日期: 4/11/2025
arXiv ID: oai:arXiv.org:2504.07402v1

摘要

arXiv:2504.07402v1 宣布类型: cross 摘要: 我们提出了一种基于 LauraGPT 主干的自动回归解码器语言模型(LauraTSE),用于目标说话人提取(TSE)。该模型采用一个小型的自动回归解码器语言模型,该模型接受混合语音和参考语音的连续表示,并产生目标语音离散编解码表示的前几层。此外,一个一步的仅编码器语言模型使用混合语音和参考信息重构预测的编解码嵌入之和。我们的方法在现有的生成和判别TSE模型上实现了优于或可比的性能。据我们所知,LauraTSE 是第一个利用自动回归解码器语言模型作为主干的单任务TSE模型。