LLM2D

摘要

arXiv:2505.09661v1 交叉公告类型摘要：本文关注解释语音信号中传递的音色，并介绍了音色属性检测（vTAD）任务。在该任务中，音色通过描述其人类感知的一组感官属性来解释。一对语音片段会被处理，并在指定的音色描述符中比较它们的强度。此外，提出了一种框架，该框架基于从语音片段中提取的说话人嵌入构建。研究在VCTK-RVA数据集上进行。对基于ECAPA-TDNN和FACodec说话人编码器的实验研究表明：1）在测试说话人包含在训练集中的已见场景中，ECAPA-TDNN说话人编码器更具优势；2）在测试说话人不包含在训练集中的未见场景中，FACodec说话人编码器表现更佳，表明其泛化能力更强。VCTK-RVA数据集和开源代码可在网站https://github.com/vTAD2025-Challenge/vTAD上获取。