摘要
arXiv:2504.19645v1 标题类型: cross
摘要: - 自然语言处理(NLP)领域在过去的十年中得到了显著扩展。日常通过NLP任务开展了许多人机交互应用,从机器翻译、语音识别、文本生成和推荐、词性标注(POS)以及命名实体识别(NER)等多个方面。然而,由于缺乏必要的资源支持其开发,低资源语言(如库尔德中部语(CKL))仍未得到充分研究。词性标注任务是其他NLP任务的基础;例如,词性标签集被用于标准化语言,以提供句子中词之间的关系,随后进行机器翻译和文本推荐。对于CKL而言,迄今为止使用的或提供的词性标签集既不标准化也不完备。鉴于此,本研究提出了一种准确且完备的CKL词性标签集,以提升库尔德语NLP任务的效果。此外,文章还收集了来自不同研究和库尔德语语言专家的大部分词性标签,以标准化词性标签。提出的词性标签集旨在注释大量的CKL语料库,并支持库尔德语NLP任务。通过与通用依存性框架(Universal Dependencies)中的标准语言进行初步比较,研究表明提出的词性标签集能够更准确地简化或纠正库尔德语NLP任务中的句子。