LLM2D
增强小型语言模型的跨语言泛化零样本分类能力的软提示调优
Enhancing Small Language Models for Cross-Lingual Generalized Zero-Shot Classification with Soft Prompt Tuning
作者: Fred Philippy, Siwen Guo, Cedric Lothritz, Jacques Klein, Tegawend\'e F. Bissyand\'e
发布日期: 3/31/2025
arXiv ID: oai:arXiv.org:2503.19469v2

摘要

arXiv:2503.19469v2 宣布类型: replace-cross 摘要:在自然语言处理(NLP)中,零样本分类(ZSC)已成为使模型能够将未见过的文本分类到训练期间未见过的类别中的重要技术,特别是在资源匮乏的语言和数据稀缺的领域。尽管预训练语言模型(PLMs)在ZSC中显示出前景,但它们通常依赖于大规模的训练数据集或外部知识,这限制了它们在多语言和资源匮乏场景中的应用。最近利用自然语言提示的方法虽然减少了对大规模训练数据集的依赖,但在有效地整合相关分类任务中可用的标签数据方面仍存在问题,尤其是在这些数据集来源于不同语言或分布的情况下。此外,现有的基于提示的方法通常依赖于特定语言中手工构建的提示,这限制了它们在跨语言设置中的适应性和有效性。为了解决这些挑战,我们提出了一种名为RoSPrompt的轻量级和数据高效的提示训练方法,它可以在保持数据分布转移时的稳健泛化能力的同时增强跨语言ZSC。RoSPrompt旨在用于小型多语言PLMs,使其能够利用高资源语言来改善在资源匮乏环境中的性能,而无需进行大量的微调或高度的计算成本。我们在涵盖106种语言的多个多语言PLMs的数据集上评估了我们的方法,展示了强大的跨语言转移性能和对未见过类别的稳健泛化能力。