摘要
arXiv:2504.18142v1 交叉公告类型:cross
摘要:命名实体识别(NER)在各种自然语言处理(NLP)任务中发挥着至关重要的作用,通过从无结构数据中识别和分类命名实体(NEs)到预定义的类别(如人物、组织、地点、日期和时间)中。虽然在高资源语言和通用领域存在大量的研究,但特别是在教育等特定领域,乌尔都语的命名实体识别(NER)仍然显著地被忽略了。这主要是由于缺乏针对教育内容的标注数据集,限制了现有模型准确识别与学术角色、课程名称和机构术语相关的实体的能力,突显了在该领域急需针对的资源。据我们所知,目前在乌尔都语领域中没有这样的数据集。为实现这一目标,本研究做出了三项关键贡献。首先,我们创建了一个手动标注的数据集,命名为EDU-NER-2025,该数据集包含13个与教育领域相关的最关键实体。其次,我们详细描述了我们的标注过程和指南,并讨论了EDU-NER-2025数据集的标注挑战。第三,我们应对并分析了在正式乌尔都文本中常见的关键语言挑战,如形态复杂性和歧义性。