LLM2D

摘要

arXiv:2502.03188v1 Announce Type: cross 摘要：语言转换（CS）仍然是自然语言处理（NLP）中的一个重要挑战，主要原因是缺乏相关数据。在伊比利亚半岛北部巴斯克语与西班牙语接触的背景下，CS在正式和非正式的自发互动中频繁发生。然而，用于分析这一现象并支持为这一语言对开发和评估能够理解和生成代码混合语言的模型的资源几乎是不存在的。我们提出了一种开发巴斯克-西班牙语代码混合语自然来源语料库的首个方法。我们的方法包括使用语言识别模型从现有的语料库中识别CS文本，然后进行人工验证以获得可靠的CS样本集。我们介绍了我们语料库的特性，并将其命名为Euska\~nolDS。