LLM2D

摘要

arXiv:2502.12672v1 论文类型: cross 摘要: 语音表示模型在各种任务中非常有效于提取通用特征。虽然微调可以增强这些表示以适应特定应用，但往往会牺牲它们的泛化能力。为了解决这一挑战，我们提出了一种名为Speech-FT的微调策略，该策略利用模型合并来保持泛化能力，同时仍能受益于微调。Speech-FT在不同的微调场景下均有效，并且兼容各种类型的语音表示模型，提供了一个通用的解决方案。Speech-FT 提供了一种高效且实用的方法，在预训练之后进一步改善通用语音表示。