摘要
这项工作解决了在进行无文本 NLP 训练时,即使训练轻量级编码器-解码器模型,也仍然存在着训练时间过长和 GPU 资源需求过高的持久性挑战。我们通过以下方法显著减少了训练步骤,同时提高了性能:a) 利用学习率调度器实现高效且更快的收敛;b) 优化跳跃长度;c) 调整插值比例因子以获得更好的音频质量。此外,我们还探索了印度语种(如泰米尔语和孟加拉语)的潜在空间表示,用于声学单元发现和语音转换任务。我们的方法利用了量化编码器架构,并结合了声码器,该声码器利用了提出的混合优化跳跃长度、调整后的插值比例因子和循环学习率调度器。我们在英语、泰米尔语和孟加拉语数据集上获得了始终如一的良好结果。该方法在捕捉复杂的语言模式方面表现出色,在语音转换过程中产生了清晰的重建音频,同时显著减少了训练时间。