摘要
arXiv:2502.12007v1 类型: cross
摘要: 本文介绍了一种基于 WavLM 特征的一般分类器,用于从语音中推断人口统计学特征,如年龄、性别、母语、教育程度和国家。人口统计学特征预测在语言学习、无障碍技术和数字取证等应用程序中发挥着关键作用,使得技术更加个性化和包容。利用预训练模型进行嵌入提取,提出的方法识别与人口统计学属性相关的关键声学和语言特征,在多个数据集上实现了年龄预测的平均绝对误差 (MAE) 为 4.94 和性别分类超过 99.81% 的准确率。我们的系统在 MAE 上相比现有模型提高了多达 30%,在准确率和 F1 分数上提高了多达 10%,通过利用多种数据集和大规模预训练模型来确保稳健性和泛化能力。本研究为基于语音的人口统计学建模提供了新的见解,并为未来的相关研究奠定了坚实的基础。