LLM2D

摘要

arXiv:2504.19645v1 标题类型: cross 摘要: - 自然语言处理（NLP）领域在过去的十年中得到了显著扩展。日常通过NLP任务开展了许多人机交互应用，从机器翻译、语音识别、文本生成和推荐、词性标注（POS）以及命名实体识别（NER）等多个方面。然而，由于缺乏必要的资源支持其开发，低资源语言（如库尔德中部语（CKL））仍未得到充分研究。词性标注任务是其他NLP任务的基础；例如，词性标签集被用于标准化语言，以提供句子中词之间的关系，随后进行机器翻译和文本推荐。对于CKL而言，迄今为止使用的或提供的词性标签集既不标准化也不完备。鉴于此，本研究提出了一种准确且完备的CKL词性标签集，以提升库尔德语NLP任务的效果。此外，文章还收集了来自不同研究和库尔德语语言专家的大部分词性标签，以标准化词性标签。提出的词性标签集旨在注释大量的CKL语料库，并支持库尔德语NLP任务。通过与通用依存性框架（Universal Dependencies）中的标准语言进行初步比较，研究表明提出的词性标签集能够更准确地简化或纠正库尔德语NLP任务中的句子。