LLM2D

摘要

这项工作解决了在进行无文本 NLP 训练时，即使训练轻量级编码器-解码器模型，也仍然存在着训练时间过长和 GPU 资源需求过高的持久性挑战。我们通过以下方法显著减少了训练步骤，同时提高了性能：a) 利用学习率调度器实现高效且更快的收敛；b) 优化跳跃长度；c) 调整插值比例因子以获得更好的音频质量。此外，我们还探索了印度语种（如泰米尔语和孟加拉语）的潜在空间表示，用于声学单元发现和语音转换任务。我们的方法利用了量化编码器架构，并结合了声码器，该声码器利用了提出的混合优化跳跃长度、调整后的插值比例因子和循环学习率调度器。我们在英语、泰米尔语和孟加拉语数据集上获得了始终如一的良好结果。该方法在捕捉复杂的语言模式方面表现出色，在语音转换过程中产生了清晰的重建音频，同时显著减少了训练时间。