LLM2D

摘要

arXiv:2404.02043v2 宣告类型: replace-cross 摘要: 尽管自然语言处理（NLP）文本分类领域存在大量的标注数据集，但各种语言之间数据可用性的持续不平衡依然明显。为了支持NLP模型的进一步公平发展，探索有效知识向新语言转移的可能性是关键。乌克兰语尤其是一个仍然可以从跨语言方法的持续改进中受益的语言。据我们所知，典型的文本分类任务（如不同类型的风格、有害言论，或文本关系）的乌克兰语语料库极其缺乏。然而，从零开始收集这样的语料库所需资源是可以理解的。在这项工作中，我们利用最新的NLP进展，探索避免手动数据整理的跨语言知识转移方法：大规模多语言编码器和翻译系统、LLM和语言适配器。我们在三种文本分类任务——毒性分类、正式程度分类和自然语言推理（NLI）——上测试了这些方法，提供了每种任务的最佳设置的“配方”。