摘要
arXiv:2411.00030v2 宣布类型: 替换-交叉
摘要: 在本文中,我们探讨了WikiNER语料库的质量,这是一个多语言命名实体识别语料库,并提供了一个统一版本。WikiNER的注解是在半监督方式下完成的,即没有后来的手动验证。这种语料库被称为银标准。在本文中,我们提出了一种修订版本的WikiNER-fr-gold,这是WikiNER的法语部分的修订版。我们的语料库包括原始法语子语料库的随机采样20%(26,818个句子,70万词)。我们首先总结了每个类别中包含的实体类型,以定义注解指南,然后我们对语料库进行了修订。最后,我们分析了在WikiNER-fr语料库中观察到的错误和不一致性,并讨论了未来工作的潜在方向。