摘要
arXiv:2502.06692v1 交叉引用类型: cross
摘要: 在句级上识别密切相关的语言非常困难,尤其是因为经常无法将一个句子归属于单一的语言。在本文中,我们专注于丹麦语、挪威语(Bokmål)、挪威语(Nynorsk)和瑞典语的多标签句级斯堪的纳维亚语言识别(LID)任务。我们介绍了斯堪的纳维亚语言识别和评估(SLIDE),一个手工收集的多标签评估数据集,以及一系列具有不同速度-准确度权衡的LID模型。我们证明了同时识别多个语言的能力是任何准确的LID方法所必需的,并提出了一种新的训练多标签LID模型的方法。