LLM2D

摘要

arXiv:2504.07402v1 宣布类型: cross 摘要: 我们提出了一种基于 LauraGPT 主干的自动回归解码器语言模型(LauraTSE)，用于目标说话人提取(TSE)。该模型采用一个小型的自动回归解码器语言模型，该模型接受混合语音和参考语音的连续表示，并产生目标语音离散编解码表示的前几层。此外，一个一步的仅编码器语言模型使用混合语音和参考信息重构预测的编解码嵌入之和。我们的方法在现有的生成和判别TSE模型上实现了优于或可比的性能。据我们所知，LauraTSE 是第一个利用自动回归解码器语言模型作为主干的单任务TSE模型。