LLM2D
全面的词性标注以标准化库尔德语中部方言:库尔德自然语言处理任务的研究指南
A Comprehensive Part-of-Speech Tagging to Standardize Central-Kurdish Language: A Research Guide for Kurdish Natural Language Processing Tasks
作者: Shadan Shukr Sabr, Nazira Sabr Mustafa, Talar Sabah Omar, Salah Hwayyiz Rasool, Nawzad Anwer Omer, Darya Sabir Hamad, Hemin Abdulhameed Shams, Omer Mahmood Kareem, Rozhan Noori Abdullah, Khabat Atar Abdullah, Mahabad Azad Mohammad, Haneen Al-Raghefy, Safar M. Asaad, Sara Jamal Mohammed, Twana Saeed Ali, Fazil Shawrow, Halgurd S. Maghdid
发布日期: 4/29/2025
arXiv ID: oai:arXiv.org:2504.19645v1

摘要

arXiv:2504.19645v1 标题类型: cross 摘要: - 自然语言处理(NLP)领域在过去的十年中得到了显著扩展。日常通过NLP任务开展了许多人机交互应用,从机器翻译、语音识别、文本生成和推荐、词性标注(POS)以及命名实体识别(NER)等多个方面。然而,由于缺乏必要的资源支持其开发,低资源语言(如库尔德中部语(CKL))仍未得到充分研究。词性标注任务是其他NLP任务的基础;例如,词性标签集被用于标准化语言,以提供句子中词之间的关系,随后进行机器翻译和文本推荐。对于CKL而言,迄今为止使用的或提供的词性标签集既不标准化也不完备。鉴于此,本研究提出了一种准确且完备的CKL词性标签集,以提升库尔德语NLP任务的效果。此外,文章还收集了来自不同研究和库尔德语语言专家的大部分词性标签,以标准化词性标签。提出的词性标签集旨在注释大量的CKL语料库,并支持库尔德语NLP任务。通过与通用依存性框架(Universal Dependencies)中的标准语言进行初步比较,研究表明提出的词性标签集能够更准确地简化或纠正库尔德语NLP任务中的句子。