LLM2D
WikiNER-fr-gold:一个金标准命名实体识别数据集
WikiNER-fr-gold: A Gold-Standard NER Corpus
发布日期: 4/29/2025
arXiv ID: oai:arXiv.org:2411.00030v2

摘要

arXiv:2411.00030v2 宣布类型: 替换-交叉 摘要: 在本文中,我们探讨了WikiNER语料库的质量,这是一个多语言命名实体识别语料库,并提供了一个统一版本。WikiNER的注解是在半监督方式下完成的,即没有后来的手动验证。这种语料库被称为银标准。在本文中,我们提出了一种修订版本的WikiNER-fr-gold,这是WikiNER的法语部分的修订版。我们的语料库包括原始法语子语料库的随机采样20%(26,818个句子,70万词)。我们首先总结了每个类别中包含的实体类型,以定义注解指南,然后我们对语料库进行了修订。最后,我们分析了在WikiNER-fr语料库中观察到的错误和不一致性,并讨论了未来工作的潜在方向。