LLM2D
Home
Arxiv
返回列表
基于转换器的多讲话人语音翻译中的说话人变更检测与性别分类
Streaming Speaker Change Detection and Gender Classification for Transducer-Based Multi-Talker Speech Translation
作者:
Peidong Wang, Naoyuki Kanda, Jian Xue, Jinyu Li, Xiaofei Wang, Aswin Shanmugam Subramanian, Junkun Chen, Sunit Sivasankaran, Xiong Xiao, Yong Zhao
发布日期:
2/6/2025
arXiv ID:
oai:arXiv.org:2502.02683v1
摘要
arXiv:2502.02683v1 Announce Type: cross 摘要:流式多说话人口语翻译不仅涉及生成低延迟的准确且流畅的翻译,还涉及识别说话人变化以及确定说话人的性别。说话人变化的信息可以用于为零样本的文本到语音系统创建音频提示,而性别则有助于在传统文本到语音模型中选择说话人档案。我们提出通过将说话人嵌入融合到基于转换器的流式端到端口语翻译模型中,来解决流式说话人变化检测和性别分类问题。我们的实验表明,所提出的方法可以同时实现高精度的说话人变化检测和性别分类。
查看原文
下载 PDF