LLM2D
介绍声音音色属性检测
Introducing voice timbre attribute detection
作者: Jinghao He, Zhengyan Sheng, Liping Chen, Kong Aik Lee, Zhen-Hua Ling
发布日期: 5/16/2025
arXiv ID: oai:arXiv.org:2505.09661v1

摘要

arXiv:2505.09661v1 交叉公告类型 摘要:本文关注解释语音信号中传递的音色,并介绍了音色属性检测(vTAD)任务。在该任务中,音色通过描述其人类感知的一组感官属性来解释。一对语音片段会被处理,并在指定的音色描述符中比较它们的强度。此外,提出了一种框架,该框架基于从语音片段中提取的说话人嵌入构建。研究在VCTK-RVA数据集上进行。对基于ECAPA-TDNN和FACodec说话人编码器的实验研究表明:1)在测试说话人包含在训练集中的已见场景中,ECAPA-TDNN说话人编码器更具优势;2)在测试说话人不包含在训练集中的未见场景中,FACodec说话人编码器表现更佳,表明其泛化能力更强。VCTK-RVA数据集和开源代码可在网站https://github.com/vTAD2025-Challenge/vTAD上获取。