LLM2D

摘要

arXiv:2502.12007v1 类型: cross 摘要: 本文介绍了一种基于 WavLM 特征的一般分类器，用于从语音中推断人口统计学特征，如年龄、性别、母语、教育程度和国家。人口统计学特征预测在语言学习、无障碍技术和数字取证等应用程序中发挥着关键作用，使得技术更加个性化和包容。利用预训练模型进行嵌入提取，提出的方法识别与人口统计学属性相关的关键声学和语言特征，在多个数据集上实现了年龄预测的平均绝对误差 (MAE) 为 4.94 和性别分类超过 99.81% 的准确率。我们的系统在 MAE 上相比现有模型提高了多达 30%，在准确率和 F1 分数上提高了多达 10%，通过利用多种数据集和大规模预训练模型来确保稳健性和泛化能力。本研究为基于语音的人口统计学建模提供了新的见解，并为未来的相关研究奠定了坚实的基础。