LLM2D

摘要

arXiv:2502.06692v1 交叉引用类型: cross 摘要: 在句级上识别密切相关的语言非常困难，尤其是因为经常无法将一个句子归属于单一的语言。在本文中，我们专注于丹麦语、挪威语（Bokmål）、挪威语（Nynorsk）和瑞典语的多标签句级斯堪的纳维亚语言识别（LID）任务。我们介绍了斯堪的纳维亚语言识别和评估（SLIDE），一个手工收集的多标签评估数据集，以及一系列具有不同速度-准确度权衡的LID模型。我们证明了同时识别多个语言的能力是任何准确的LID方法所必需的，并提出了一种新的训练多标签LID模型的方法。