LLM2D
增强小语言模型在软提示调优下的跨语言通用零-shot 分类能力
Enhancing Small Language Models for Cross-Lingual Generalized Zero-Shot Classification with Soft Prompt Tuning
作者: Fred Philippy, Siwen Guo, Cedric Lothritz, Jacques Klein, Tegawend\'e F. Bissyand\'e
发布日期: 3/26/2025
arXiv ID: oai:arXiv.org:2503.19469v1

摘要

arXiv:2503.19469v1 声明类型: cross 摘要:在自然语言处理(NLP)中,零样本分类(ZSC)已成为使模型能够在训练过程中未见过的类别中对文本进行分类的关键技术,特别是在资源有限的语言和领域中,标注数据稀缺时尤为重要。虽然预训练语言模型(PLMs)在ZSC中显示出潜力,但它们通常依赖于大型训练数据集或外部知识,这限制了它们在多语言和资源有限场景中的适用性。最近利用自然语言提示的方法减少了对大型训练数据集的依赖,但在有效地结合相关分类任务中可用的标注数据方面遇到困难,尤其是在这些数据集来自不同语言或分布时。此外,现有的基于提示的方法通常依赖于特定语言的手动构造提示,这限制了它们在跨语言设置中的适应性和有效性。为了解决这些挑战,我们介绍了RoSPrompt,这是一种轻量级且数据高效的软提示训练方法,该方法可以增强跨语言ZSC,并确保在数据分布转移时具有稳健的泛化能力。RoSPrompt旨在为小型多语言PLMs设计,使它们能够在资源有限的环境中利用高资源语言提高性能,而无需进行大量微调或高计算成本。我们将在涵盖106种语言的数据集上对多种多语言PLMs进行评估,展示了其强大的跨语言迁移性能和在未见过的类别的稳健泛化能力。