摘要
arXiv:2502.04245v1 交叉发布类型: cross
摘要: 印度丰富的文化多样性和语言多样性在自然语言处理(NLP)领域,特别是在命名实体识别(NER)方面提出了各种挑战。NER是一个NLP任务,旨在识别并将标记分类到不同实体组中,如人名、地名、组织、数字等。这使得NER对于下游任务,如上下文意识匿名化非常有用。本文详细介绍了我们为印度三大语言构建多语言NER模型的工作——印地语、孟加拉语和马尔泰语。我们训练了一个自定义变压器模型,并对几个预训练模型进行了微调,共计六个实体组,实现了F1分数为92.11。通过本文,我们旨在介绍一个单一模型进行NER,并显著减少这三个语言之间的实体组和标签名称的一致性问题。