LLM2D

摘要

arXiv:2504.20447v1 宣告类型: 交叉摘要: 自动语音质量评估旨在通过计算模型定量描述人类对语音的主观感受，从而减少劳动密集型的手动评估需求。尽管基于深度学习的模型在预测平均意见得分（MOS）以评估合成语音方面取得了进展，但忽视了基本的听觉感知机制限制了与人类判断的一致性。为解决这一问题，我们提出了一种由听觉感知引导的MOS预测模型（APG-MOS），该模型将听觉建模与语义分析协同集成，以增强与人类判断的一致性。具体而言，我们首先设计了一个感知模块，基于生物学听觉机制，模拟听觉器官的功能，将声学信号编码为生物对齐的电化学表示。其次，我们提出了一种基于残差向量量化（RVQ）的语义失真建模方法，以在语义层面量化语音质量的降级。最后，我们设计了一种残差交叉注意架构，并结合分阶段学习策略，以实现电化学信号和语义表示的多模态融合。实验表明，APG-MOS在两个主要基准上表现出优越的性能。我们的代码和检查点将在发布后在公共代码库上提供。