LLM2D
Scandinavian 语言多标签识别 (SLIDE)
Multi-label Scandinavian Language Identification (SLIDE)
作者: Mariia Fedorova, Jonas Sebulon Frydenberg, Victoria Handford, Victoria Ovedie Chruickshank Lang{\o}, Solveig Helene Willoch, Marthe L{\o}ken Midtgaard, Yves Scherrer, Petter M{\ae}hlum, David Samuel
发布日期: 2/11/2025
arXiv ID: oai:arXiv.org:2502.06692v1

摘要

arXiv:2502.06692v1 交叉引用类型: cross 摘要: 在句级上识别密切相关的语言非常困难,尤其是因为经常无法将一个句子归属于单一的语言。在本文中,我们专注于丹麦语、挪威语(Bokmål)、挪威语(Nynorsk)和瑞典语的多标签句级斯堪的纳维亚语言识别(LID)任务。我们介绍了斯堪的纳维亚语言识别和评估(SLIDE),一个手工收集的多标签评估数据集,以及一系列具有不同速度-准确度权衡的LID模型。我们证明了同时识别多个语言的能力是任何准确的LID方法所必需的,并提出了一种新的训练多标签LID模型的方法。