摘要
arXiv:2502.04351v1 交叉公布类型: cross
摘要:命名实体识别(NER)是历史研究中自动建立所有对人物、地点、事件等方面引用的核心任务。然而,由于来源的高度语言多样性和体裁多样性、拼写标准化的有限性、所需的历史领域知识水平以及注释训练数据的匮乏,传统的自然语言处理(NLP)方法既极其昂贵,又在召回率和精确率方面表现不尽如人意。我们在这篇论文中引入了一种新的方法。我们展示了如何广泛可用的最先进的语言模型(LLMs)在历史文档的命名实体识别(NER)中显著优于spaCy和flair这两个领先的NLP框架,其F1分值高出7%到22%。我们的消融研究显示,提供历史上下文和一点人物建模(转向非纯粹语言学方法)是成功提示策略的核心。我们还证明,与我们的预期相反,在少量样本方法中增加了示例数量,并未在达到16射频次阈值以下改善召回率或精确率。因此,我们的方法通过去除使用传统NLP工具所需的编写语言和计算技能障碍,进而民主化了所有历史学家对命名实体识别的访问,而是利用自然语言提示和消费级工具及前端。