摘要
arXiv:2503.20290v2 通知类型: replace-cross
摘要: 本文通过利用自然语言描述探索了一种新的语音质量评估视角,提供了比传统数值评分方法更为丰富、细腻的见解。自然语言反馈提供了有指导意义的建议和详细评估,但现有数据集缺乏进行这种做法所需的全面注释。为弥合这一差距,我们介绍了QualiSpeech,这是一个全面的低级语音质量评估数据集,涵盖了11个关键方面,并包含详细自然语言注释,其中包括推理和上下文见解。此外,我们提出了QualiSpeech基准,以评估听觉大规模语言模型(LLLMs)的低级语音理解能力。实验结果表明,微调后的听觉LLLMs能够可靠地生成关于噪声和失真的详细描述,有效地识别它们的类型和时域特征。结果还进一步突显了在质量评估中融入推理以提高准确性和可靠性的潜力。该数据集将在https://huggingface.co/datasets/tsinghua-ee/QualiSpeech发布。