LLM2D

摘要

arXiv:2504.18142v1 交叉公告类型：cross 摘要：命名实体识别（NER）在各种自然语言处理（NLP）任务中发挥着至关重要的作用，通过从无结构数据中识别和分类命名实体（NEs）到预定义的类别（如人物、组织、地点、日期和时间）中。虽然在高资源语言和通用领域存在大量的研究，但特别是在教育等特定领域，乌尔都语的命名实体识别（NER）仍然显著地被忽略了。这主要是由于缺乏针对教育内容的标注数据集，限制了现有模型准确识别与学术角色、课程名称和机构术语相关的实体的能力，突显了在该领域急需针对的资源。据我们所知，目前在乌尔都语领域中没有这样的数据集。为实现这一目标，本研究做出了三项关键贡献。首先，我们创建了一个手动标注的数据集，命名为EDU-NER-2025，该数据集包含13个与教育领域相关的最关键实体。其次，我们详细描述了我们的标注过程和指南，并讨论了EDU-NER-2025数据集的标注挑战。第三，我们应对并分析了在正式乌尔都文本中常见的关键语言挑战，如形态复杂性和歧义性。