LLM2D

摘要

arXiv:2503.22711v1 类别：交叉学科摘要：自发语音情感数据通常包含感知等级，在这些等级中，评分者在听完语音文件后为其分配情感分数。这种感知等级由于评分者意见的差异，带来了标签的不确定性。通过使用共识等级作为ground truth来解决评分者差异，其中选择获得最高投票的情感。共识等级未能考虑到那些可能包含多种情感的语音样本的模糊实例，这些实例通过评分者的意见不确定性被捕捉到。我们展示了将情感等级的概率密度函数作为目标，而不是通常使用的共识等级，相比于文献中报告的结果，在基准评估集上提供了更好的性能。我们证明，基于显著性驱动的基础模型（FM）的表示选择有助于训练最新的语音情感模型，用于情感维度识别和情感类别识别。通过对不同FM获得的表示进行比较，我们观察到，关注整体测试集性能可能是误导性的，因为它无法揭示模型在说话人和性别方面的泛化能力。我们证明，在多个测试集上的性能评估以及在性别和说话人方面进行的性能分析，对于评估情感模型的实用性是有用的。最后，我们展示了标签不确定性和数据偏差对模型评估构成挑战，与其使用最佳假设，考虑前2个或3个假设是有益的。