LLM2D

摘要

arXiv:2502.04245v1 交叉发布类型: cross 摘要: 印度丰富的文化多样性和语言多样性在自然语言处理（NLP）领域，特别是在命名实体识别（NER）方面提出了各种挑战。NER是一个NLP任务，旨在识别并将标记分类到不同实体组中，如人名、地名、组织、数字等。这使得NER对于下游任务，如上下文意识匿名化非常有用。本文详细介绍了我们为印度三大语言构建多语言NER模型的工作——印地语、孟加拉语和马尔泰语。我们训练了一个自定义变压器模型，并对几个预训练模型进行了微调，共计六个实体组，实现了F1分数为92.11。通过本文，我们旨在介绍一个单一模型进行NER，并显著减少这三个语言之间的实体组和标签名称的一致性问题。