LLM2D

摘要

arXiv:2502.07562v1 宣布类型: cross 摘要：语音合成模型将书面文本转换为自然音质的音频。早期的模型只能处理单一的说话者，而最近的进步导致开发出了零样本系统，可以从广泛的说话者中生成逼真的语音，这些说话者的语音可以用作额外的提示。然而，它们仍然难以模仿质量明显不同于训练数据集的非录音室质量的样本。在这项工作中，我们展示了利用低秩适应（LoRA）可以使我们成功地利用嘈杂环境下单个自发语音记录作为提示。这种方法通过最多提高30个基点提升说话者相似性，同时保持内容和自然度。它代表了朝着创建真正多样的语音语料库迈出的重要一步，这对于所有语音相关的任务至关重要。