摘要
arXiv:2502.06922v1 Announce Type: cross
摘要:NLP社区广泛地关注于仅文本的认知状态任务方法,但音频可以通过语调提供重要的缺失线索。我们提出,文本转语音模型学会跟踪认知状态的各个方面,以便生成自然的音频,而音频模型隐含识别的信号与语言模型利用的信息是正交的。我们介绍了合成音频数据微调(SAD)框架,在该框架中,我们展示了7个与认知状态建模相关的任务受益于同时使用文本和来自现成TTS系统的零样本合成音频数据的多模态训练。当我们向仅文本的数据集添加合成音频数据时,我们展示了性能改进。此外,在包含真实音频的数据集和任务上,我们的SAD框架在与仅文本和真实音频相比时,实现了竞争力的性能。