LLM2D
EDU-NER-2025: 用XLM-RoBERTa with X( formerly Twitter)识别乌尔都教育文本中的命名实体
EDU-NER-2025: Named Entity Recognition in Urdu Educational Texts using XLM-RoBERTa with X (formerly Twitter)
作者: Fida Ullah, Muhammad Ahmad, Muhammad Tayyab Zamir, Muhammad Arif, Grigori sidorov, Edgardo Manuel Felipe River\'on, Alexander Gelbukh
发布日期: 4/28/2025
arXiv ID: oai:arXiv.org:2504.18142v1

摘要

arXiv:2504.18142v1 交叉公告类型:cross 摘要:命名实体识别(NER)在各种自然语言处理(NLP)任务中发挥着至关重要的作用,通过从无结构数据中识别和分类命名实体(NEs)到预定义的类别(如人物、组织、地点、日期和时间)中。虽然在高资源语言和通用领域存在大量的研究,但特别是在教育等特定领域,乌尔都语的命名实体识别(NER)仍然显著地被忽略了。这主要是由于缺乏针对教育内容的标注数据集,限制了现有模型准确识别与学术角色、课程名称和机构术语相关的实体的能力,突显了在该领域急需针对的资源。据我们所知,目前在乌尔都语领域中没有这样的数据集。为实现这一目标,本研究做出了三项关键贡献。首先,我们创建了一个手动标注的数据集,命名为EDU-NER-2025,该数据集包含13个与教育领域相关的最关键实体。其次,我们详细描述了我们的标注过程和指南,并讨论了EDU-NER-2025数据集的标注挑战。第三,我们应对并分析了在正式乌尔都文本中常见的关键语言挑战,如形态复杂性和歧义性。