LLM2D

摘要

arXiv:2504.07776v1 Announce Type: cross 摘要：最近，基于流匹配的语音合成在显著提高合成语音质量的同时，减少了推理步骤的数量。在本文中，我们介绍了SlimSpeech，一种基于修正流的轻量化且高效的语音合成系统。我们在此前利用修正流模型的语音合成方法基础上，对其结构进行了修改，减少了参数数量，并将其作为教师模型。通过改进重构流程操作，我们直接从较大模型中派生出一个更小且具有更直接采样轨迹的模型，同时利用蒸馏技术进一步提升模型性能。实验结果表明，我们提出的方法，在显著减少模型参数的情况下，通过单步采样实现了与大型模型相当的性能。