LLM2D

摘要

arXiv:2502.06922v1 Announce Type: cross 摘要：NLP社区广泛地关注于仅文本的认知状态任务方法，但音频可以通过语调提供重要的缺失线索。我们提出，文本转语音模型学会跟踪认知状态的各个方面，以便生成自然的音频，而音频模型隐含识别的信号与语言模型利用的信息是正交的。我们介绍了合成音频数据微调（SAD）框架，在该框架中，我们展示了7个与认知状态建模相关的任务受益于同时使用文本和来自现成TTS系统的零样本合成音频数据的多模态训练。当我们向仅文本的数据集添加合成音频数据时，我们展示了性能改进。此外，在包含真实音频的数据集和任务上，我们的SAD框架在与仅文本和真实音频相比时，实现了竞争力的性能。